# SGLang SGLang は、複数 generation call、制御フロー、構造化入出力を持つ言語モデルプログラムを効率的に記述・実行するシステムである。Python 埋め込みの frontend 言語と SGLang Runtime から成り、`gen`、`select`、`fork`、`join`、`image`、`video` などのプリミティブを提供する。 NeurIPS 2024 論文では、RadixAttention による KV キャッシュ再利用、圧縮有限状態機械による構造化出力復号、API speculative execution を提案し、多様なワークロードで最大 6.4 倍のスループット改善、最大 3.7 倍のレイテンシ削減を報告した。Chatbot Arena での配備では Vicuna-33B の RadixAttention cache hit rate が 74.1% になり、first-token latency が平均 1.7 倍削減された。(Source: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]]) ## 関連 - 概念: [[KVキャッシュ管理]] / [[LLM推論]] - 人物・組織: [[Lianmin Zheng]] / [[LMSYS]] / [[University of California, Berkeley]] - ソース: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]]