SGLang - yuuk1's Digital Garden

# SGLang SGLang は、複数 generation call、制御フロー、構造化入出力を持つ言語モデルプログラムを効率的に記述・実行するシステムである。Python 埋め込みの frontend 言語と SGLang Runtime から成り、`gen`、`select`、`fork`、`join`、`image`、`video` などのプリミティブを提供する。 NeurIPS 2024 論文では、RadixAttention による KV キャッシュ再利用、圧縮有限状態機械による構造化出力復号、API speculative execution を提案し、多様なワークロードで最大 6.4 倍のスループット改善、最大 3.7 倍のレイテンシ削減を報告した。Chatbot Arena での配備では Vicuna-33B の RadixAttention cache hit rate が 74.1% になり、first-token latency が平均 1.7 倍削減された。(Source: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]]) 2025-05-05 のブログ記事では、[[DeepSeek-V3]] 級モデルを 96 台の H100 GPU(12 ノード)上で [[Prefill-Decode分離|PD Disaggregation]] + 大規模 [[Mixture-of-Experts|Expert Parallelism]] により配備し、DeepSeek 公式プロフィールにほぼ匹敵する性能(TP16 基準比 Prefill 最大 3.3 倍・Decode 最大 5.2 倍)を、オープンソース実装として初めて達成したと報告した。Attention 層は DP Attention、密な FFN 層は DP、疎な FFN 層は [[DeepEP]] による Expert Parallelism、LM Head も DP という層別の並列化を採用し、[[DeepGEMM]]・[[EPLB]]・Two-batch Overlap・DisposableTensor を組み合わせた。(Source: [[@2025__LMSYS Blog__Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs]]) 2026-07-28、[[Fixstars]] は SGLang 0.5.16 を用いて [[Kimi K3]](2.8T MoE)を [[NVIDIA]] B300 SXM6 x8 の単一ノードにデプロイした。選定理由は [[Decode Context Parallelism|Decode Context Parallelism(DCP)]] 対応であり、MLA の KV キャッシュを8GPUに分散配置することで、同時期に DCP 非対応だった vLLM に対し実効コンテキスト長で最大8倍の差を生んだと報告されている。(Source: [[@2026__Fixstars Tech Blog__Kimi-K3 を Day0 デプロイ - 2.8T モデルは NVIDIA B300 x8 の 1 ノードで動くのか]]) [[@2026__arXiv__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems]](MLSys 2026)では、`flashinfer_bench.apply()` によりコード変更なしで AI 生成カーネルを動的に代入・検証する対象の本番 LLM エンジンとして SGLang が挙げられ、Fused Add RMSNorm カーネルを Llama-3.1-8B-Instruct サービングに適用してエンドツーエンドレイテンシへの効果を実測している。(Source: [[@2026__arXiv__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems]]) 2026-04-10、[[LMSYS]] は HiSparse を発表した。前作 HiCache の階層メモリ設計をスパース注意に特化させ、top-k スパース注意で active でない KV キャッシュエントリをホストメモリへ退避しつつ GPU HBM 上に hot device buffer を維持することで、[[スパース注意]]特有のメモリ容量ボトルネックを緩和する。SGLang に実装され、`--enable-hisparse` フラグで有効化する。[[DeepSeek-V3.2]]・GLM-5.1 系列(DeepSeek Sparse Attention 採用モデル)向けの実験的機能であり、並行数256でベースライン比3倍超、長文脈シナリオで最大5倍のスループット改善を報告している。(Source: [[@2026__LMSYS Blog__HiSparse - Turbocharging Sparse Attention with Hierarchical Memory]]) ## 関連 - 概念: [[KVキャッシュ管理]] / [[LLM推論]] / [[Prefill-Decode分離]] / [[Mixture-of-Experts]] / [[並列化戦略]] / [[負荷分散]] / [[Decode Context Parallelism]] / [[LLM駆動GPUカーネル生成]] / [[スパース注意]] - 人物・組織: [[Lianmin Zheng]] / [[LMSYS]] / [[University of California, Berkeley]] / [[Fixstars]] - エンティティ: [[DeepEP]] / [[DeepGEMM]] / [[EPLB]] / [[DeepSeek-V3]] / [[DeepSeek-V3.2]] / [[Kimi K3]] / [[FlashInfer]] - ソース: [[@2024__NeurIPS__SGLang - Efficient Execution of Structured Language Model Programs]] / [[@2025__LMSYS Blog__Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs]] / [[@2026__Fixstars Tech Blog__Kimi-K3 を Day0 デプロイ - 2.8T モデルは NVIDIA B300 x8 の 1 ノードで動くのか]] / [[@2026__arXiv__FlashInfer-Bench - Building the Virtuous Cycle for AI-driven LLM Systems]] / [[@2026__LMSYS Blog__HiSparse - Turbocharging Sparse Attention with Hierarchical Memory]]