## Memo
![[Pasted image 20250830023138.png]]
## Memo with LLM
### 論文情報
- **論文のタイトル**: Taming the Titans: A Survey of Efficient LLM Inference Serving
- **著者と所属**:
- Ranran Zhen (Soochow University)
- Juntao Li (Soochow University, 責任著者)
- Yixin Ji (Soochow University)
- Zhenlin Yang (Soochow University)
- Tong Liu (Soochow University)
- Qingrong Xia (Huawei Cloud)
- Xinyu Duan (Huawei Cloud)
- Zhefeng Wang (Huawei Cloud)
- Baoxing Huai (Huawei Cloud)
- Min Zhang (Soochow University)
- **カンファレンス/ジャーナル名**: arXiv (プレプリント)
- **発表年**: 2025年
### 論文概要
本論文は、大規模言語モデル([[LLM]])の効率的な推論サービングに関する包括的なサーベイ論文である。メモリオーバーヘッドと[[Attention機構|注意機構]]の計算負荷による低レイテンシ・高スループットの実現という課題に対して、インスタンスレベル、クラスターレベル、新興シナリオ、その他重要領域の体系的な分類法を提示している。
### 詳細解説
#### 問題設定
LLMの推論サービングにおける主要な課題として、膨大なパラメータ数によるメモリオーバーヘッドと注意機構の高い計算負荷が挙げられる。入力は自然言語のプロンプトで、出力は生成されたテキストである。必要なデータとして、モデルパラメータ、KVキャッシュ、推論リクエストの管理が含まれる。
#### 提案手法
論文では効率化手法を4つの主要カテゴリに分類している:
**1. インスタンスレベル最適化**
- **モデル配置**: パイプライン並列化、テンソル並列化、オフローディング技術
- **リクエストスケジューリング**: リクエスト間・リクエスト内スケジューリング
- **デコード長予測**: 正確な長さ予測、範囲ベース分類、相対ランキング予測
- **KVキャッシュ最適化**: メモリ管理、再利用戦略、圧縮技術
- **プリフィル・デコード分離**: 計算特性の違いを利用した分離アーキテクチャ
**2. クラスターレベル最適化**
- **クラスター最適化**: 異種リソース対応アーキテクチャ、サービス認識スケジューリング
- **負荷分散**: ヒューリスティック、動的、インテリジェント予測スケジューリング
- **クラウドベースサービング**: デプロイメントと計算効率、エッジデバイス連携
**3. 新興シナリオ**
- **長コンテキスト**: 並列処理、注意計算、KVキャッシュ管理
- **RAG**: ワークフロースケジューリング、ストレージ最適化
- **MoE**: エキスパート配置、負荷分散、All-to-All通信
- **LoRA、投機的デコード、拡張LLM、テスト時推論**
**4. その他重要領域**
- ハードウェア、プライバシー、シミュレータ、公平性、エネルギー効率
#### 新規性
先行研究と比較して、本論文の新規性は以下の点にある:
1. **包括性**: 最新の25以上のカテゴリにわたる体系的分類
2. **階層的構造**: インスタンス→クラスター→新興シナリオの明確な階層化
3. **実践的観点**: システム実装と理論的基礎の両方を考慮
4. **将来展望**: 依存制約スケジューリング、マルチモーダルモデルサービス、インテリジェント推論サービス、安全性・プライバシーの4つの研究方向を提示
#### 実験設定
この論文はサーベイ論文のため、独自の実験設定は含まれていない。代わりに、各手法の評価指標として以下を定義している:
- **TTFT** (Time to First Token): 入力から最初のトークンまでの遅延
- **TBT** (Time Between Tokens): 連続するトークン間の時間間隔
- **TPOT** (Time Per Output Token): デコード中のトークンあたりの平均時間
- **スループット**: 全リクエストでの1秒あたりトークン生成数
- **容量**: SLOを満たしながらの最大スループット
- **正規化遅延**: 総実行時間をトークン数で割った値
- **パーセンタイル指標**: 遅延分布(P50, P90, P99)
#### 実験結果
サーベイ論文として具体的な数値実験は行われていないが、各カテゴリの手法について先行研究の結果を整理している。例えば:
- PagedAttentionによるメモリ断片化の大幅削減
- 投機的デコードによる推論加速(品質劣化なし)
- 分離アーキテクチャによる異なる計算フェーズの最適化
- 各手法の適用場面と性能特性の詳細な分析を提供
論文では、LLM推論サービングの急速な発展に伴い、システムレベルの最適化がますます重要になっていることを強調し、理論と実践の橋渡しとなる包括的なフレームワークを提供している。
## Abstract
生成AIのための大規模言語モデル([[LLM]])は目覚ましい進歩を遂げ、様々な分野やアプリケーションで広く採用されている洗練された多目的ツールへと発展している。しかし、膨大なパラメータ数による大幅なメモリオーバーヘッドと、注意機構の高い計算要求が組み合わさることで、[[LLM推論]]サービスにおける低レイテンシと高スループットの実現に重大な課題をもたらしている。画期的な研究に牽引された最近の進歩により、この分野の発展は大幅に加速されている。本論文では、これらの手法の包括的なサーベイを提供し、基本的なインスタンスレベルアプローチ、詳細なクラスターレベル戦略、新興シナリオの方向性、その他の雑多ながら重要な領域をカバーしている。インスタンスレベルでは、モデル配置、リクエストスケジューリング、デコード長予測、ストレージ管理、分離パラダイムをレビューする。クラスターレベルでは、GPUクラスター展開、マルチインスタンス負荷分散、クラウドサービスソリューションを探求する。新興シナリオについては、特定のタスク、モジュール、補助手法を中心とした議論を整理している。包括的な概観を保証するため、ニッチながら重要な複数の領域も強調している。最後に、LLM推論サービング分野をさらに発展させるための潜在的な研究方向を概説している。