# SGLang
SGLang は、複数 generation call、制御フロー、構造化入出力を持つ言語モデルプログラムを効率的に記述・実行するシステムである。Python 埋め込みの frontend 言語と SGLang Runtime から成り、`gen`、`select`、`fork`、`join`、`image`、`video` などのプリミティブを提供する。
NeurIPS 2024 論文では、RadixAttention による KV キャッシュ再利用、圧縮有限状態機械による構造化出力復号、API speculative execution を提案し、多様なワークロードで最大 6.4 倍のスループット改善、最大 3.7 倍のレイテンシ削減を報告した。Chatbot Arena での配備では Vicuna-33B の RadixAttention cache hit rate が 74.1% になり、first-token latency が平均 1.7 倍削減された。(Source: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]])
## 関連
- 概念: [[KVキャッシュ管理]] / [[LLM推論]]
- 人物・組織: [[Lianmin Zheng]] / [[LMSYS]] / [[University of California, Berkeley]]
- ソース: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]]