> [!abstract] 概要(arXiv abstract の日本語訳)
> 大規模言語モデル(LLM)は多様なタスクで顕著な性能を示し、大きな注目を集めている。
> しかし、LLM 推論の大きな計算・メモリ要求は、資源制約のあるシナリオへの展開に課題をもたらす。
> 研究分野では、LLM 推論効率を高める技術の開発が進められてきた。
> 本論文は、効率的な LLM 推論に関する既存文献の包括的サーベイを提示する。
> まず、非効率な LLM 推論の主因、すなわち大きなモデルサイズ、二乗複雑度の attention 操作、自己回帰復号方式を分析する。
> 次に、既存文献を data-level、model-level、system-level optimization に整理する包括的タクソノミーを導入する。
> さらに、重要なサブフィールドの代表手法に関する比較実験を含め、定量的洞察を提供する。
> 最後に、知識の要約と将来の研究方向を議論する。
## 論文情報
- タイトル: A Survey on Efficient Inference for Large Language Models
- 著者: [[Zixuan Zhou]]、Xuefei Ning、Ke Hong、Tianyu Fu、Jiaming Xu、Shiyao Li、Yuming Lou、Luning Wang、Zhihang Yuan、Xiuhong Li、Shengen Yan、Guohao Dai、Xiao-Ping Zhang、Huazhong Yang、Yuhan Dong、Yu Wang。
- 所属: [[Infinigence-AI]]、Tsinghua University、Shanghai Jiao Tong University、Tsinghua Shenzhen International Graduate School、Peking University。
- 媒体: arXiv:2404.14294v3、2024-07-19。
## 概要
本サーベイは、LLM 推論効率化を data-level、model-level、system-level の 3 層に分け、入力圧縮、出力組織化、量子化、疎化、構造最適化、知識蒸留、動的推論、グラフ/演算子最適化、offloading、投機的復号、メモリ管理、バッチング、スケジューリング、分散システムを整理する。
## 問題設定
LLM 推論の効率指標は latency、throughput、power consumption、storage、energy にまたがる。非効率の根本原因は、巨大なモデルサイズ、Prefill における attention の二乗計算、Decode で毎 step モデル重みと増大する KV キャッシュへアクセスする自己回帰方式にある。推論過程は Prefill と Decode に分かれ、first token latency、per-output token latency、generation latency、token throughput、request throughput が主要指標になる。
## 提案手法
サーベイのタクソノミーは以下である。
- **Data-level optimization**: prompt pruning、prompt summary、soft prompt-based compression、RAG、Skeleton-of-Thought などの出力組織化。
- **Model-level optimization**: 効率的構造設計、モデル圧縮、量子化、疎化、構造分解、知識蒸留、動的推論。
- **System-level optimization**: 推論エンジン、グラフ/演算子最適化、offloading、投機的復号、メモリ管理、バッチング、スケジューリング、分散システム。
## 新規性
既存サーベイが主にモデル圧縮や MLSys 観点に寄っていたのに対し、本サーベイは data/model/system の 3 層を一つのタクソノミーにし、代表手法の比較実験も含める。特に system-level optimization を精度劣化なしの実務上重要な層として位置づける。
## 実験設定
複数の LLM フレームワーク比較では Llama2-7B、single NVIDIA A100 80GB、input length 1k、output length 128、ShareGPT dataset を使う。比較対象は HuggingFace、DeepSpeed、vLLM、OpenPPL、FlashDecoding++、LightLLM、TensorRT-LLM である。
## 実験結果
- inference throughput では FlashDecoding++ が 106.636 token/s、TensorRT-LLM が 92.512 token/s、vLLM が 90.052 token/s と報告される。
- serving throughput では LightLLM が 10.29 req/s、vLLM が 7.11 req/s、DeepSpeed が 6.78 req/s、TensorRT-LLM が 5.87 req/s とされる。
- serving 機能を持つフレームワークは、細粒度かつ非連続な KV キャッシュ保存と continuous batching を使ってシステム利用率を高める傾向がある。
## 考察
本サーベイは [[LLM推論]] の広い地図として有用だが、2024 年 7 月時点のため、[[LMCache]]、P/D-Serve、NVIDIA Dynamo などの後続の KV キャッシュ階層管理・分離型本番基盤は十分に含まれていない。wiki では、古典的タクソノミーの土台として扱い、後続 source で更新する。
## 強み / 弱点・課題
- 強み: data/model/system の三層整理により、LLM 推論効率化の位置づけを俯瞰できる。
- 弱点・課題: 急速に進む 2025 年以降の PD 分離、KV cache store、エージェント向け cache-aware routing は後続文献で補う必要がある。