# LLM Inference Benchmarking: Fundamental Concepts
[[NVIDIA]] が 2025 年 4 月に公開した技術ブログ記事。LLM 推論のベンチマーク測定に必要な基礎概念——メトリクス体系・ベンチマークパラメータ・ユースケースパターン——を定義する。自社ツール [[GenAI-Perf]] の利用ガイダンスを兼ねる。
## 推論の 4 段階
1. **プロンプト提出**(Prompt): ユーザーがリクエストを送信
2. **キューイング**(Queuing): リクエストが処理待ちキューに積まれる
3. **プリフィル**(Prefill): 入力トークン全体を処理し KV キャッシュを構築(計算バウンド)
4. **生成**(Generation): KV キャッシュを参照しながらトークンを 1 つずつ逐次生成(メモリ帯域バウンド)
この 4 段階は [[Kazuki Fujii]] の Zenn 記事([[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]])や道下幹也の解説([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])と共通する枠組みである。
## メトリクス定義
| 指標 | 定義 | 備考 |
|------|------|------|
| **TTFT**(Time to First Token)| プロンプト提出から最初のトークン受信までの時間 | キューイング+プリフィル時間を含む |
| **e2e_latency** | リクエスト送信から最終トークン受信まで | `TTFT + generation_time` |
| **ITL**(Intertoken Latency)| 連続トークン間の平均時間 | `(e2e_latency – TTFT) / (出力トークン数 – 1)` |
| **TPS**(Tokens Per Second)| システムスループット(総出力トークン ÷ 時間) | 分母の定義はツールにより異なる |
| **RPS**(Requests Per Second)| 完了リクエスト数 ÷ 時間 | |
### ツール間の定義差異
> [!key-insight] GenAI-Perf と LLMPerf の違い
> - **ITL**: LLMPerf は TTFT を ITL 計算に含める。GenAI-Perf は含めない。
> - **TPS の分母**: ツールにより「最初のリクエストから最後のレスポンスまで」か「テスト全体の壁時計」かが異なる。
> 両ツールの結果を直接比較する場合は正規化が必要。
## ユースケースパターン(ISL/OSL プロファイル)
| ユースケース | ISL(入力トークン) | OSL(出力トークン) | 特徴 |
|-------------|-------------------|---------------------|------|
| 翻訳(Translation) | 500〜2000 | 500〜2000 | 入出力比がほぼ 1:1 |
| 生成(Generation) | 〜100 | 〜1000 | 短いプロンプトで長い出力 |
| 要約(Summarization)| 〜1000 | 〜100 | 長い入力から短い出力 |
| 推論(Reasoning) | 〜100 | 1000〜10000 | 思考連鎖(CoT)で出力が極端に長い |
同じハードウェアとモデルでも **ISL/OSL プロファイルが異なればベンチマーク結果は大きく変わる**。実用目的に合わせたプロファイル選択が前提となる。
## ベンチマークパラメータ
- **並列数(Concurrency, N)**: 同時処理リクエスト数。高並列ほど TPS が上がるが、ハードウェア限界で頭打ちになる
- **最大バッチサイズ**: GPU メモリと推論エンジン設定が上限を決める
- **リクエストレート**: 一定間隔または ポアソン分布(実際のトラフィックをシミュレート)
## ロードテスト vs. パフォーマンスベンチマーク
| 目的 | 手法 | 問い |
|------|------|------|
| **ロードテスト** | 高並列でシステムを限界まで負荷をかける | 「どの並列数でシステムが破綻するか」 |
| **パフォーマンスベンチマーク** | 特定の構成・モデル・最適化の効率を測る | 「この最適化でレイテンシが何 ms 改善するか」 |
## 関連ツール
- [[GenAI-Perf]]: NVIDIA 製オープンソースベンチマークツール。TTFT・ITL・TPS・RPS を計測
- [[TensorRT-LLM]]: NVIDIA の LLM 推論最適化ライブラリ(量子化・テンソル並列・Flash Attention)
- [[NVIDIA NIM]]: コンテナ化された推論エンドポイントマイクロサービス
## 既存 wiki との関係
- **定義体系の一致**: メトリクス定義(TTFT・ITL・TPS・RPS)は道下幹也・Fujii の解説と一貫。[[LLM推論]] 概念ページの指標体系を強化する。
- **ツール差異の追加知見**: GenAI-Perf vs. LLMPerf の ITL/TPS 計算差異は Fujii の記事が指摘した「ツール間の ITL 定義差」を NVIDIA 公式視点から補完する。
- **ユースケースプロファイル**: 翻訳/生成/要約/推論の 4 パターンと数値は本 wiki に新出。
## 関連
- 概念: [[LLM推論]] / [[サービスレベル目標]]
- エンティティ: [[NVIDIA]] / [[GenAI-Perf]] / [[TensorRT-LLM]] / [[NVIDIA NIM]]
- ソース(関連): [[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]] / [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]]