# LLM推論
## 定義
LLM推論(LLM inference / serving)とは、学習済み大規模言語モデルでトークンを生成する実行過程で、入力を一括処理する Prefill フェーズと、トークンを 1 つずつ生成する Decode フェーズに分かれる。Prefill は TTFT(Time To First Token)、Decode は TPOT(Time Per Output Token)で評価される。([[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]]) 実行はクラウドの多 GPU・多ノードからエッジ/オンデバイスまで多様な環境にまたがり、演算子オフロード・グラフ実行・Mixture-of-Experts ルーティングといった動的挙動を伴う。([[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]])
## 横断的知見
- **Prefill=計算バウンド/Decode=メモリバウンドの段階差が観測の基本軸**: [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]] はオンデバイス推論で「このワークロードはメモリバウンドか計算バウンドか」という問いに演算子レベル PMC で答え、Decode の行列ベクトル乗算では CPU サイクルの 50% 超(4 スレッドで 80% 超)が stall するメモリ帯域ボトルネックを示す。フェーズごとに律速資源が変わることが、推論最適化と観測設計の出発点になる。(Source: [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]])
- **ボトルネックは「帯域」と思われがちだが実際は別所にあることが多い**: ProfInfer は MoE のボトルネックがメモリ帯域でなく**ディスク I/O**(evict されたエキスパートの fetch)だと結論し、[[@2025__arXiv__Collective Communication for 100k+ GPUs]] は推論のボトルネックが帯域でなく **CPU 準備オーバーヘッド**や CUDA Graph 由来のパディングだと特定する。細粒度観測は「帯域が足りない」という素朴な見立てを反証する点で価値を持つ。(Source: [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]], [[@2025__arXiv__Collective Communication for 100k+ GPUs]])
- **同じ LLM 推論でもスケールで観測対象が変わる**: eInfer・NCCLX はサーバ/分散規模で CPU・GPU・ネットワーク・ノード横断のリクエスト追跡や GPU 常駐コレクティブを扱い、ProfInfer はエッジ(Orange Pi・Rubik Pi)で演算子オフロード・スレッド偏り・干渉タスクを扱う。スケールの違いがボトルネックの所在(通信か・I/O か・スレッド偏りか)を変える。(Source: [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]], [[@2025__arXiv__Collective Communication for 100k+ GPUs]], [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]])
- **MoE ルーティングが観測の難所として共通する**: eInfer は MoE のルーティング挙動と通信ボトルネックを、ProfInfer は活性化エキスパート ID と「距離」(前回活性化からのトークン距離)を追跡する。動的にエキスパートが選ばれる MoE は静的なグラフ解析では捉えられず、実行時計装の主対象になる([[Mixture-of-Experts]])。(Source: [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]], [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]])
- **LLM 推論効率化はアルゴリズムレベルとシステムレベルの二重構造をなす**: [[@2024__TMLR__Efficient Large Language Models - A Survey]] は推論最適化をアルゴリズムレベル(投機的復号、KV キャッシュ最適化)とシステムレベル(FlexGen、Orca、vLLM、DeepSpeed-Inference、Flash-Decoding)に二分する。投機的復号は小型ドラフトモデルから木構造候補を生成し棄却サンプリングで品質を保持する唯一の手法であり、SpecInfer(トークン木検証)・Medusa(追加ヘッド方式)・BiLD(フォールバック/ロールバック方策)の 3 設計が立つ。KV キャッシュ最適化は圧縮系(KIVI: 2 ビット量子化でピークメモリ 2.6 倍削減)と退避系(H₂O: 動的劣モジュラ退避、StreamingLLM: アテンションシンク+ウィンドウで一定メモリの無限系列長)に分かれる。システムレベルでは Orca の反復レベルスケジューリング(FasterTransformer 比 36.9 倍スループット)から vLLM の PagedAttention(2–4 倍スループット)へ、メモリ管理の OS 的仮想化が進む。Miao+ のサービングサーベイ [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]] が推論フレームワーク 10 種の横断比較に特化するのに対し、Wan+ は推論をモデル圧縮・効率的アーキテクチャ(FlashAttention、MoE、状態空間モデル)を含むモデル中心手法全体の一部として位置づけ、より広い文脈で推論最適化を整理する。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]], [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]])
- **モデル圧縮が推論効率化の前段として機能し、両者は直列に組み合わさる**: [[@2024__TMLR__Efficient Large Language Models - A Survey]] は[[モデル圧縮]](量子化・プルーニング・低ランク近似・知識蒸留)を推論とは独立のセクションで扱うが、実際にはモデル圧縮後のモデルが推論パイプラインに投入される。PTQ の重み限定量子化(GPTQ: 175B を 3–4 ビット化)と KV キャッシュ量子化(KIVI: 2 ビット)は推論のメモリ律速を異なるレイヤーで緩和する。この直列最適化の実効性は FlexGen が「重み+KV キャッシュの 4 ビット量子化で OPT-175B を単一 16GB GPU で推論」した例で示される。(Source: [[@2024__TMLR__Efficient Large Language Models - A Survey]])
- **低レイテンシと高スループットは双対最適化目標であり、同時最適化は原理的に困難**: Miao+ のサーベイはサービングシステム 10 種を横断比較し、FlexFlow-Serve は SpecInfer による投機的復号でレイテンシに特化し、vLLM はページドアテンションによる KV キャッシュ効率化でスループットに特化するという設計の分岐を明示した。ProfInfer が示す Prefill=計算バウンド/Decode=メモリバウンドのフェーズ差は、この双対性の物理的根拠と一致する——Prefill の高速化(TTFT 削減)とバッチ効率(スループット)は異なる資源を律速とするため。(Source: [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]], [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]])
- **投機的復号は出力品質を保持できる唯一のアルゴリズム的高速化手法**: Miao+ は非自己回帰復号・早期脱出・カスケード推論がいずれも品質劣化を伴うのに対し、投機的復号は木構造検証で LLM の出力分布を保存することを示す。eInfer が分散推論で speculative decoding のトレース可能性を問うのは、この品質保証前提を運用で検証する必要があるからだ。(Source: [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]], [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]])
- **Goodput は SLO 達成スループットを示す実用的指標**: 生のスループット(TPS/RPS)は SLO を無視した指標だが、実際の運用では TTFT・ITL の制約が満たせないリクエストは実質的に無効になる。道下幹也の解説([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])では、秒間 10 RPS のシステムが TTFT 200 ms 以下・ITL 50 ms 以下の SLO 制約により Goodput が 3 RPS まで低下する例を示している。Goodput は「SLO を満たすスループット」として設計の評価指標に据える必要がある([[サービスレベル目標]])。(Source: [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])
- **PD 分離はテイルレイテンシを改善するが KV Cache 転送がボトルネックになる**: Prefill ノードと Decode ノードを物理分離すると ITL のテイルレイテンシが改善されるが、GB オーダーの KV Cache をノード間で転送する必要が生じる(Llama-3.1-405B で入力 8k トークン時に約 4 GB/リクエスト)。100 並行リクエスト時の転送は高速ネットワーク(400 Gbps NIC + GPUDirect RDMA)なしには成立しない。「KV Cache を設計の中心に据える」ことが分散推論基盤の定石とされる理由がここにある。(Source: [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])
- **ユースケースの ISL/OSL プロファイルがベンチマーク設計の前提となる**: NVIDIA の公式解説([[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]])は、翻訳(ISL≈OSL≈500〜2000)・生成(ISL≈100、OSL≈1000)・要約(ISL≈1000、OSL≈100)・推論(ISL≈100、OSL≈1000〜10000)の 4 パターンを定義する。同じハードウェアとモデルでも ISL/OSL 比が変わればベンチマーク結果は大きく変わるため、実用目的に合わせたプロファイル選択が不可欠。(Source: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]])
- **ITL・TPS の計算方法はツール間で異なり、直接比較には正規化が必要**: Kazuki Fujii の解説([[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]])および NVIDIA の公式ドキュメントが共通して指摘する。具体的には [[GenAI-Perf]] の ITL は TTFT を含まないが、LLMPerf は含む。TPS の分母定義もツールにより異なる。(Source: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]], [[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]])
- **スパースアテンションが MoE + MLA アーキテクチャの推論コストを長コンテキストで大幅に削減する**: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]] の DeepSeek Sparse Attention(DSA)は、ライトニングインデクサ(FP8・ReLU 活性化の軽量モジュール)でトークン間の関連度をスコアリングし、top-k のキーバリューエントリのみにアテンションを適用することでコアアテンション複雑度を O(L²) から O(Lk) に削減する。128K コンテキストでプリフィルコストが DeepSeek-V3.1-Terminus の約 1/4 に低下し、デコードコストも同様に削減される。ProfInfer が Prefill=計算バウンド/Decode=メモリバウンドのフェーズ差を示したのに対し、DSA は Prefill の計算バウンドを構造的に緩和するアーキテクチャ的解である。短系列ではマスク付き MHA モードで DSA をシミュレートし効率を維持する点で、系列長に応じた推論戦略の動的切替が実装レベルで実現されている。(Source: [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]], [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]])
- **ハイブリッド圧縮アテンションが KV キャッシュ問題を構造的に解決し、100 万トークンコンテキスト推論を実用化した**: KV キャッシュの肥大化は長コンテキスト推論の中心課題であるが、[[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]] は CSA(4 トークン→1 圧縮 + top-k スパース選択)と HCA(128 トークン→1 高圧縮 + 密アテンション)のインターリーブ構成に混合精度格納(RoPE 次元 BF16 / その他 FP8)と FP4 インデクサ演算を組み合わせ、100 万トークンで BF16 GQA8 比約 2% の KV キャッシュサイズ、DeepSeek-V3.2 比 10%(Pro)に圧縮した。道下([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])が「KV Cache を設計の中心に据える」と述べた設計原則を、V4 はアーキテクチャレベルで KV キャッシュの絶対量を桁違いに削減することで問題構造そのものを変えている。PagedAttention / H₂O / StreamingLLM がメモリ管理・退避で対処するのに対し、V4 のアプローチは圧縮でキャッシュ量自体を減らす方向。(Source: [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]], [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])
- **推論フレームワークの KV キャッシュ管理はハイブリッドアテンションにより PagedAttention の前提を覆した**: PagedAttention(vLLM)は均質な KV キャッシュを仮想ページで管理するが、DeepSeek-V4 のハイブリッドアテンション(CSA / HCA / SWA の異種 KV エントリ)は層ごとにキャッシュサイズ・更新規則・ヒット/退避ポリシーが異なり、PagedAttention の基本仮定を破る。V4 はステートキャッシュ(SWA + 未圧縮テール)と圧縮 KV キャッシュの 2 系統を分離し、スパースアテンションカーネルと協調設計することでこの問題を解決した。さらにオンディスク KV キャッシュ(完全 SWA キャッシュ / 周期チェックポイント / ゼロ SWA キャッシュの 3 戦略)で共有プレフィックスの再プリフィルを回避する。(Source: [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]], [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]])
## 未解決の問い
- DeepSeek-V4 の圧縮アテンション(CSA / HCA)は KV キャッシュサイズを劇的に削減するが、圧縮による情報損失が長コンテキスト検索精度にどの程度影響するか(MRCR 1M で Claude Opus 4.6 の 92.9% に対し 83.5%)。圧縮率と検索精度のパレートフロンティアはどこにあるか。
- DeepSeek-V4 のオンディスク KV キャッシュ 3 戦略(完全/周期/ゼロ SWA キャッシュ)の最適な切り替え基準は、ISL/OSL プロファイルや共有プレフィックスの比率にどう依存するか。
- エッジ(ProfInfer)で得た段階別・演算子別の知見は、サーバ/大規模モデル(eInfer・NCCLX)へどこまで外挿できるか。
- speculative decoding や継続バッチングなど、さらに動的な実行に演算子レベル観測を一般化できるか。
- 推論の GPU 常駐コレクティブ(NCCLX の AllToAllvDynamic)は AllToAllv 以外の操作にも広げられるか。
- Miao+ が指摘するリカレントユニット(RWKV・RetNet・状態空間モデル)は Transformer を完全に代替できるか。特に長シーケンスでの品質比較が不足している。
- Prefill-Decode 分離アーキテクチャ(Splitwise・DistServe)の最適な分離粒度と、弾性的シーケンス並列(LoongServe)との統合はどこまで進んでいるか。
- 包括的で再現可能な LLM サービングベンチマーク(モデル構成×ハードウェア×リクエスト負荷の全組み合わせ)は依然として未確立。
- KV Cache の転送帯域(GB オーダー)が PD 分離の律速になるという道下の指摘を、NIXL や LMCache のような KV Cache 転送最適化技術はどこまで緩和できるか。
- DSA([[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]])のライトニングインデクサは O(L²) を維持するが主アテンションより大幅に軽い。インデクサ自体をさらに疎化・近似する設計は可能か。また DSA の top-k 選択がエージェント型ワークフロー(ツールコール履歴の参照パターン)でどの程度有効かは未検証。
## 関連
- ソース: [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]] / [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]] / [[@2025__arXiv__Collective Communication for 100k+ GPUs]] / [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]] / [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]] / [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]]
- 概念: [[GPU観測性]] / [[Mixture-of-Experts]] / [[ハードウェアカウンタ]] / [[集合通信]] / [[動的インストルメンテーション]] / [[サービスレベル目標]]
- エンティティ: [[llama.cpp]] / [[GGML]] / [[Llama4]] / [[Orange Pi]] / [[Rubik Pi]] / [[vLLM]] / [[高火力 PHY]] / [[GenAI-Perf]] / [[TensorRT-LLM]] / [[NVIDIA NIM]]
- 関連 MOC: [[LLM4SRE - MOC]] / [[AI Infra Telemetry - MOC]]
## 出典
- [[@2026__arXiv__ProfInfer - An eBPF-based Fine-Grained LLM Inference Profiler]](Prefill/Decode・PMC・MoE ボトルネック=ディスク I/O)
- [[@2025__eBPF__eInfer - Unlocking Fine-Grained Tracing for Distributed LLM Inference with eBPF]](分散推論のリクエスト追跡・MoE ルーティング)
- [[@2025__arXiv__Collective Communication for 100k+ GPUs]](推論ボトルネック=CPU 準備オーバーヘッド・GPU 常駐コレクティブ)
- [[@2025__ACM Computing Surveys__Towards Efficient Generative Large Language Model Serving]](アルゴリズム/システム 2 軸タクソノミー、投機的復号の品質保持、レイテンシ/スループット双対性、フレームワーク横断比較)
- [[@2024__TMLR__Efficient Large Language Models - A Survey]](§2.4 推論効率化のアルゴリズム/システム二重構造、モデル圧縮→推論の直列最適化、§2.5 効率的アーキテクチャとの統合)
- [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]](性能指標体系 TTFT/ITL/TPOT/E2EL/TPS/RPS/Goodput、バッチ戦略 4 種、PD 分離、KV Cache 転送ボトルネック、「KV Cache を設計の中心」の定石)
- [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]](ユースケース別 ISL/OSL プロファイル、GenAI-Perf vs LLMPerf のメトリクス計算差異、ロードテスト vs パフォーマンスベンチマークの区別)
- [[@2025__arXiv__DeepSeek-V3.2 - Pushing the Frontier of Open Large Language Models]](DSA: ライトニングインデクサ + top-k トークン選択で O(L²) → O(Lk) のコアアテンション複雑度削減。128K プリフィルで約 4 倍のコスト削減)
- [[@2025__DeepSeek__DeepSeek-V4 - Towards Highly Efficient Million-Token Context Intelligence]](§2.3 CSA + HCA ハイブリッド圧縮アテンションによる KV キャッシュ BF16 GQA8 比 2% 圧縮、§3.5 異種 KV キャッシュ管理とオンディスク KV キャッシュ 3 戦略、FP4 インデクサ・混合精度 KV 格納)