> [!abstract] 概要(arXiv abstract の日本語訳) > 大規模言語モデル(LLM)は多様なタスクで顕著な性能を示し、大きな注目を集めている。 > しかし、LLM 推論の大きな計算・メモリ要求は、資源制約のあるシナリオへの展開に課題をもたらす。 > 研究分野では、LLM 推論効率を高める技術の開発が進められてきた。 > 本論文は、効率的な LLM 推論に関する既存文献の包括的サーベイを提示する。 > まず、非効率な LLM 推論の主因、すなわち大きなモデルサイズ、二乗複雑度の attention 操作、自己回帰復号方式を分析する。 > 次に、既存文献を data-level、model-level、system-level optimization に整理する包括的タクソノミーを導入する。 > さらに、重要なサブフィールドの代表手法に関する比較実験を含め、定量的洞察を提供する。 > 最後に、知識の要約と将来の研究方向を議論する。 ## 論文情報 - タイトル: A Survey on Efficient Inference for Large Language Models - 著者: [[Zixuan Zhou]]、Xuefei Ning、Ke Hong、Tianyu Fu、Jiaming Xu、Shiyao Li、Yuming Lou、Luning Wang、Zhihang Yuan、Xiuhong Li、Shengen Yan、Guohao Dai、Xiao-Ping Zhang、Huazhong Yang、Yuhan Dong、Yu Wang。 - 所属: [[Infinigence-AI]]、Tsinghua University、Shanghai Jiao Tong University、Tsinghua Shenzhen International Graduate School、Peking University。 - 媒体: arXiv:2404.14294v3、2024-07-19。 ## 概要 本サーベイは、LLM 推論効率化を data-level、model-level、system-level の 3 層に分け、入力圧縮、出力組織化、量子化、疎化、構造最適化、知識蒸留、動的推論、グラフ/演算子最適化、offloading、投機的復号、メモリ管理、バッチング、スケジューリング、分散システムを整理する。 ## 問題設定 LLM 推論の効率指標は latency、throughput、power consumption、storage、energy にまたがる。非効率の根本原因は、巨大なモデルサイズ、Prefill における attention の二乗計算、Decode で毎 step モデル重みと増大する KV キャッシュへアクセスする自己回帰方式にある。推論過程は Prefill と Decode に分かれ、first token latency、per-output token latency、generation latency、token throughput、request throughput が主要指標になる。 ## 提案手法 サーベイのタクソノミーは以下である。 - **Data-level optimization**: prompt pruning、prompt summary、soft prompt-based compression、RAG、Skeleton-of-Thought などの出力組織化。 - **Model-level optimization**: 効率的構造設計、モデル圧縮、量子化、疎化、構造分解、知識蒸留、動的推論。 - **System-level optimization**: 推論エンジン、グラフ/演算子最適化、offloading、投機的復号、メモリ管理、バッチング、スケジューリング、分散システム。 ## 新規性 既存サーベイが主にモデル圧縮や MLSys 観点に寄っていたのに対し、本サーベイは data/model/system の 3 層を一つのタクソノミーにし、代表手法の比較実験も含める。特に system-level optimization を精度劣化なしの実務上重要な層として位置づける。 ## 実験設定 複数の LLM フレームワーク比較では Llama2-7B、single NVIDIA A100 80GB、input length 1k、output length 128、ShareGPT dataset を使う。比較対象は HuggingFace、DeepSpeed、vLLM、OpenPPL、FlashDecoding++、LightLLM、TensorRT-LLM である。 ## 実験結果 - inference throughput では FlashDecoding++ が 106.636 token/s、TensorRT-LLM が 92.512 token/s、vLLM が 90.052 token/s と報告される。 - serving throughput では LightLLM が 10.29 req/s、vLLM が 7.11 req/s、DeepSpeed が 6.78 req/s、TensorRT-LLM が 5.87 req/s とされる。 - serving 機能を持つフレームワークは、細粒度かつ非連続な KV キャッシュ保存と continuous batching を使ってシステム利用率を高める傾向がある。 ## 考察 本サーベイは [[LLM推論]] の広い地図として有用だが、2024 年 7 月時点のため、[[LMCache]]、P/D-Serve、NVIDIA Dynamo などの後続の KV キャッシュ階層管理・分離型本番基盤は十分に含まれていない。wiki では、古典的タクソノミーの土台として扱い、後続 source で更新する。 ## 強み / 弱点・課題 - 強み: data/model/system の三層整理により、LLM 推論効率化の位置づけを俯瞰できる。 - 弱点・課題: 急速に進む 2025 年以降の PD 分離、KV cache store、エージェント向け cache-aware routing は後続文献で補う必要がある。