# LLM Inference Benchmarking: Fundamental Concepts [[NVIDIA]] が 2025 年 4 月に公開した技術ブログ記事。LLM 推論のベンチマーク測定に必要な基礎概念——メトリクス体系・ベンチマークパラメータ・ユースケースパターン——を定義する。自社ツール [[GenAI-Perf]] の利用ガイダンスを兼ねる。 ## 推論の 4 段階 1. **プロンプト提出**(Prompt): ユーザーがリクエストを送信 2. **キューイング**(Queuing): リクエストが処理待ちキューに積まれる 3. **プリフィル**(Prefill): 入力トークン全体を処理し KV キャッシュを構築(計算バウンド) 4. **生成**(Generation): KV キャッシュを参照しながらトークンを 1 つずつ逐次生成(メモリ帯域バウンド) この 4 段階は [[Kazuki Fujii]] の Zenn 記事([[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]])や道下幹也の解説([[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]])と共通する枠組みである。 ## メトリクス定義 | 指標 | 定義 | 備考 | |------|------|------| | **TTFT**(Time to First Token)| プロンプト提出から最初のトークン受信までの時間 | キューイング+プリフィル時間を含む | | **e2e_latency** | リクエスト送信から最終トークン受信まで | `TTFT + generation_time` | | **ITL**(Intertoken Latency)| 連続トークン間の平均時間 | `(e2e_latency – TTFT) / (出力トークン数 – 1)` | | **TPS**(Tokens Per Second)| システムスループット(総出力トークン ÷ 時間) | 分母の定義はツールにより異なる | | **RPS**(Requests Per Second)| 完了リクエスト数 ÷ 時間 | | ### ツール間の定義差異 > [!key-insight] GenAI-Perf と LLMPerf の違い > - **ITL**: LLMPerf は TTFT を ITL 計算に含める。GenAI-Perf は含めない。 > - **TPS の分母**: ツールにより「最初のリクエストから最後のレスポンスまで」か「テスト全体の壁時計」かが異なる。 > 両ツールの結果を直接比較する場合は正規化が必要。 ## ユースケースパターン(ISL/OSL プロファイル) | ユースケース | ISL(入力トークン) | OSL(出力トークン) | 特徴 | |-------------|-------------------|---------------------|------| | 翻訳(Translation) | 500〜2000 | 500〜2000 | 入出力比がほぼ 1:1 | | 生成(Generation) | 〜100 | 〜1000 | 短いプロンプトで長い出力 | | 要約(Summarization)| 〜1000 | 〜100 | 長い入力から短い出力 | | 推論(Reasoning) | 〜100 | 1000〜10000 | 思考連鎖(CoT)で出力が極端に長い | 同じハードウェアとモデルでも **ISL/OSL プロファイルが異なればベンチマーク結果は大きく変わる**。実用目的に合わせたプロファイル選択が前提となる。 ## ベンチマークパラメータ - **並列数(Concurrency, N)**: 同時処理リクエスト数。高並列ほど TPS が上がるが、ハードウェア限界で頭打ちになる - **最大バッチサイズ**: GPU メモリと推論エンジン設定が上限を決める - **リクエストレート**: 一定間隔または ポアソン分布(実際のトラフィックをシミュレート) ## ロードテスト vs. パフォーマンスベンチマーク | 目的 | 手法 | 問い | |------|------|------| | **ロードテスト** | 高並列でシステムを限界まで負荷をかける | 「どの並列数でシステムが破綻するか」 | | **パフォーマンスベンチマーク** | 特定の構成・モデル・最適化の効率を測る | 「この最適化でレイテンシが何 ms 改善するか」 | ## 関連ツール - [[GenAI-Perf]]: NVIDIA 製オープンソースベンチマークツール。TTFT・ITL・TPS・RPS を計測 - [[TensorRT-LLM]]: NVIDIA の LLM 推論最適化ライブラリ(量子化・テンソル並列・Flash Attention) - [[NVIDIA NIM]]: コンテナ化された推論エンドポイントマイクロサービス ## 既存 wiki との関係 - **定義体系の一致**: メトリクス定義(TTFT・ITL・TPS・RPS)は道下幹也・Fujii の解説と一貫。[[LLM推論]] 概念ページの指標体系を強化する。 - **ツール差異の追加知見**: GenAI-Perf vs. LLMPerf の ITL/TPS 計算差異は Fujii の記事が指摘した「ツール間の ITL 定義差」を NVIDIA 公式視点から補完する。 - **ユースケースプロファイル**: 翻訳/生成/要約/推論の 4 パターンと数値は本 wiki に新出。 ## 関連 - 概念: [[LLM推論]] / [[サービスレベル目標]] - エンティティ: [[NVIDIA]] / [[GenAI-Perf]] / [[TensorRT-LLM]] / [[NVIDIA NIM]] - ソース(関連): [[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]] / [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]]