@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving

> [!abstract] 概要 > 急速に進化する人工知能(AI)の環境において、生成型大規模言語モデル(LLM)は最前線に立ち、データとの対話方法に革命をもたらしている。しかしながら、これらのモデルの展開に伴う計算の集約性とメモリ消費は、とりわけ低レイテンシと高スループットが求められる場面でサービング効率に関する大きな課題を呈している。本サーベイは、機械学習システム(MLSys)研究の視点から効率的な LLM サービング手法の切実な必要性に応えるものであり、先端的な AI 革新と実用的なシステム最適化の交差点に立っている。最先端のアルゴリズム的改良からシステム設計の根本的な変革に至る、幅広い解決策を網羅する詳細な分析を提供する。本サーベイは、効率的な LLM サービングの現状と将来の方向性について包括的な理解を提供し、効果的な LLM 展開の障壁を克服するための貴重な洞察を研究者と実務者に届け、AI の未来を再形成することを目指す。 ## 論文情報 - **タイトル**: Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems - **著者**: [[Xupeng Miao]]([[Purdue University]])、[[Gabriele Oliaro]]・[[Zhihao Zhang]]・[[Xinhao Cheng]]・[[Hongyi Jin]]・[[Tianqi Chen]]・[[Zhihao Jia]]([[Carnegie Mellon University]]) - **媒体**: ACM Computing Surveys, Vol. 58, No. 1, Article 15 - **発表**: 2025年9月 - **DOI**: 10.1145/3754448 - **ページ数**: 37 ## 概要 LLM サービングの効率化に関する包括的サーベイ。アルゴリズム革新とシステム最適化の 2 軸タクソノミーで既存手法を体系化し、代表的なオープンソースフレームワーク 10 種の比較分析、ベンチマークの課題、および 6 つの将来方向を示す。375 本の参考文献を網羅する。 **Figure 3: 図** ![[_attachments/2026_Unknown_Towards_Efficient_Generative_Large_Language/fig3-figure.png]] (Figure 3. Illustration of different speculative decoding approaches を示す。) **Figure 1: 分類** ![[_attachments/2026_Unknown_Towards_Efficient_Generative_Large_Language/fig1-taxonomy.png]] (Figure 1. Taxonomy of LLM inference advancements に関する分類を示す。) ## 問題設定 LLM の巨大なモデルサイズと自己回帰的復号の逐次性が、低レイテンシ・高スループット・省メモリを同時に実現するサービングを困難にしている。5 つの課題軸を特定する: (1) レイテンシと応答時間、(2) メモリフットプリントとモデルサイズ、(3) スケーラビリティとスループット、(4) ハードウェア互換性と高速化、(5) 精度と効率のトレードオフ。 **Figure 2: アルゴリズム** ![[_attachments/2026_Unknown_Towards_Efficient_Generative_Large_Language/fig2-algorithm.png]] (Figure 2. Illustration of different LLM decoding algorithms に関するアルゴリズムの流れを示す。) ## 提案するタクソノミー ![[Pasted image 20260605222143.png]] ### アルゴリズム革新 #### 復号アルゴリズム - **非自己回帰復号(non-autoregressive decoding)**: 出力トークン間の条件付き独立性を仮定し並列復号する。品質劣化が課題で、半自己回帰的手法や Jacobi 固定点反復法(parallel decoding)で改善を図る。 - **投機的復号(speculative decoding)**: 小型のドラフトモデルで複数ステップを先行予測し、LLM で並列検証する。出力は元の LLM と同一のため品質を保持できる唯一のアルゴリズム的手法。SpecInfer が木構造の投機的推論と検証機構を初めて提案し、Medusa・EAGLE・Sequoia 等が後続する。 - **早期脱出(early exiting)**: 深いレイヤーの中間層出力から推論し計算量を適応的に調整する。内部表現の情報不足が課題。 - **カスケード推論(cascade inference)**: 異なるスケールの複数 LLM を難易度に応じて使い分け応答時間を最小化する(CascadeBERT、FrugalGPT 等)。 #### アーキテクチャ設計 - **構成縮小(config downsizing)**: 浅いエンコーダ/デコーダ、重み共有、語彙縮小。 - **アテンション簡略化**: 疎なアテンションパターン(選択的・スライディング+拡張・グローバルトークン・ハッシュ)でコンテキスト圧縮。StreamingLLM・H2O・Scissorhands が代表。$O(L^2)$ の計算量を削減する。 - **活性化共有**: MQA・GQA・MLA(DeepSeek V2/V3/R1)で KV キャッシュのメモリ帯域要求を削減。 - **条件付き計算(MoE)**: スパースに活性化する [[Mixture-of-Experts]] で、入力に応じて必要なエキスパートのみ計算。分散通信と GPU カーネル実装の最適化が必要。 - **リカレントユニット**: RWKV・RetNet が線形アテンション/状態空間モデルで $O(L^2)$ を回避。Transformer を完全に代替できるかは未解決。 #### モデル圧縮 - **知識蒸留**: 大型教師→小型生徒。API ベースのブラックボックス蒸留(Alpaca・Vicuna・WizardLM)が台頭。 - **ネットワーク枝刈り**: 構造的枝刈り(Deja Vu 等、GPU 高速化直結)と非構造的枝刈り(50〜60% スパース性)。N:M 半構造スパース性(2:4/4:8)で NVIDIA テンソルコアを活用可能。PowerInfer がスパース活性化ニューロンの偏りを利用した GPU-CPU ハイブリッドエンジンを提案。 ### システム最適化 #### 低ビット量子化 - **QAT(量子化認識訓練)** と **PTQ(訓練後量子化)** の 2 方向。W8A16・W4A16(GPTQ)・W8A8(SmoothQuant)・W4A4 など。NVIDIA Hopper は FP8 テンソルコアを導入し FP32 比 60 倍の TFLOPS を実現。スケーリング則により量子化が推論性能に顕著な影響を与えうるとの研究もある。 #### 並列計算 - **モデル並列(TP/PP)**: テンソル並列は NVLink 高速接続下のマルチ GPU に有効。パイプライン並列はスループット向上に寄与するがレイテンシ削減には直結しない。自動並列化(Alpa・FlexFlow・Galvatron)がコストモデルを推論向けに置換し適用可能。 - **シーケンス並列(SP)**: 長い入力をシーケンス長次元で複数 GPU に分割。リング型(Striped Attention)と all-gather 型の 2 方式。LoongServe が弾性的 SP でコンテキスト長変化に自動追従。 - **クラウドスケーリング**: SpotServe がプリエンプティブルインスタンス上で動的に並列構成を調整。ServerlessLLM が多層チェックポイントローディングでコールドスタートを解決。 - **分散推論**: Petals が消費者級 GPU のクラウドソーシングで [[2023__JMLR__BLOOM - A 176B - Parameter Open - Access Multilingual Language Model|BLOOM]]-176B を提供。Helix が最大流量ベースのモデル配置とスケジューリング。帯域・異種性・耐障害性が実用上の課題。 #### メモリ管理 - KV キャッシュの動的増減が中心課題。**vLLM のページドアテンション**が非連続ブロック管理でバッチサイズ・スループットを大幅改善(現代 LLM サービングの設計基盤)。vAttention が CUDA 仮想メモリ管理で断片化を緩和。LightLLM がトークン粒度管理でさらに使用量を削減するが、断片化管理のオーバーヘッドとのトレードオフがある。 - **オフロード**: CPU DRAM・SSD への KV キャッシュ退避(InfiniGen・HCache・Pensieve・Mooncake)。CachedAttention がマルチターン会話でのアテンション計算再利用を実現。 #### リクエストスケジューリング - Orca が**イテレーション粒度スケジューリング**を初めて提案し、選択的バッチングで自己回帰復号の可変出力長に対応。vLLM の連続バッチング、TensorRT-LLM のインフライトバッチングが後続。 - SpecInfer が投機的推論のバッチスケジューリングに拡張。FastServe がジョブ完了時間(JCT)を最適化。Sarathi-Serve がパイプラインバブルを入力チャンク分割で解消。 - **Prefill-Decode 分離**: Splitwise が Prefill と Decode を異なる GPU に分離する分割アーキテクチャを初めて提案(DistServe・ExeGPT が同時期に類似設計)。 #### カーネル最適化 - **カーネル融合**: GEMM 統合と非 GEMM カーネル(残差接続・層正規化・活性化関数)のバイアス付き融合。 - **専用アテンション**: 初期フェーズ(xFormers のオンライン softmax トリック)と増分フェーズ(FasterTransformer の融合 MHA、FlashDecoding のシーケンス長次元並列化)。FlashInfer がブロック疎形式で多様な KV キャッシュパターンを統合。 - **可変シーケンス長**: パッキング技法(パディング除去)、ラグドテンソル、バケット化。 - **自動コンパイル**: TVM・MLIR・JAX・OpenAI Triton・Mirage 等のコンパイラが、手書きカーネル以上の効率を発見可能にし、代替ハードウェアへの適応を促進する。 ## サービングフレームワーク比較 Table 2 で 10 種のオープンソースフレームワークを TP/PP/オフロード・イテレーション粒度スケジューリング・アテンションカーネル(初期/増分)・最適化目標(レイテンシ/スループット)の軸で比較。FlexFlow-Serve は SpecInfer による木構造投機的復号で低レイテンシに特化し、vLLM はページドアテンションで高スループットに特化する——両者は双対最適化目標の好例である。 ![[Pasted image 20260605222058.png]] ## 新規性 - アルゴリズムとシステムの 2 軸で LLM サービング効率化を体系化した初の包括的タクソノミーを提示。 - 10 種の代表的フレームワークの技術的差異(カーネル実装・並列戦略・スケジューリング方針)を統一的な軸で横断比較。 - TTFT と TPOT の分離が設計選択をどう方向づけるかを明示化し、低レイテンシと高スループットの双対性を論じた。 - ベンチマーク不在の課題(評価設定の組み合わせ爆発・非推論オーバーヘッドの分離・出力内容のアラインメント）を特定。 ## 実験設定本サーベイは実験論文ではないため独自の実験は含まない。各手法の実験結果は元論文の報告に基づき議論される。 **Table 1: 比較** ![[_attachments/2026_Unknown_Towards_Efficient_Generative_Large_Language/table1-comparison.png]] (Table 1. Comparisons of Attention Simplification Methods in Prior Efficient Transformers and Recent LLMs に関する比較関係を示す。) **Table 2: 比較** ![[_attachments/2026_Unknown_Towards_Efficient_Generative_Large_Language/table2-comparison.png]] (Table 2. Comparison of state-of-the-art Open-Sourced GPU-Based LLM Serving Systems に関する比較関係を示す。) ## 将来方向 1. **ハードウェアアクセラレータの協調設計**: HBM/SRAM 容量、メモリ帯域、テンソルコアの進化が LLM 計算パターンに直結。 2. **効率的復号アルゴリズム**: 汎化された投機的推論——ドラフトモデルを知識検索やユーザー定義関数で代替。 3. **長コンテキスト/シーケンス最適化**: 長さ汎化失敗、「中間情報の喪失」問題、KV キャッシュのメモリ増加。 4. **代替アーキテクチャの探索**: アテンションフリー手法や純 MLP アーキテクチャの可能性。 5. **複雑環境への展開**: エッジ/ハイブリッド/分散/スポットインスタンスでの耐障害性。 6. **要件への自動適応**: パラメータ効率的微調整、RAG、マルチラウンド会話、マルチモーダル、構造化生成、マルチエージェントシミュレーションへの最適化空間の拡張。 ## 強み - 375 本の参考文献を網羅し、アルゴリズム/システム双方を体系化した包括性。 - 投機的復号を中心に、復号アルゴリズムの発展系統を図 3 の時系列で可視化。 - フレームワーク比較が実装レベル（カーネル選択・メモリ管理方式）まで踏み込んでいる。 ## 弱点・課題 - 2025年9月出版のため DeepSeek V3/R1 やそれ以降のシステム進化（SGLang 等）が十分にカバーされていない可能性がある。 - 独自の定量的ベンチマーク比較は含まず、各手法の相対的効果を直接比較するデータがない。 - ハードウェア焦点が NVIDIA GPU に偏っており、TPU・AMD GPU・カスタムアクセラレータの議論が限定的。 - マルチモーダル LLM やロングコンテキスト推論の最新進展（2024 後半〜2025）への言及が薄い。