@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts

# LLM Inference Benchmarking: Fundamental Concepts [[NVIDIA]] が 2025 年 4 月に公開した技術ブログ記事。LLM 推論のベンチマーク測定に必要な基礎概念——メトリクス体系・ベンチマークパラメータ・ユースケースパターン——を定義する。自社ツール [[GenAI-Perf]] の利用ガイダンスを兼ねる。 ## 推論の 4 段階 1. **プロンプト提出**（Prompt）: ユーザーがリクエストを送信 2. **キューイング**（Queuing）: リクエストが処理待ちキューに積まれる 3. **プリフィル**（Prefill）: 入力トークン全体を処理し KV キャッシュを構築（計算バウンド） 4. **生成**（Generation）: KV キャッシュを参照しながらトークンを 1 つずつ逐次生成（メモリ帯域バウンド）この 4 段階は [[Kazuki Fujii]] の Zenn 記事（[[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]]）や道下幹也の解説（[[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]]）と共通する枠組みである。 ## メトリクス定義 | 指標 | 定義 | 備考 | |------|------|------| | **TTFT**（Time to First Token）| プロンプト提出から最初のトークン受信までの時間 | キューイング＋プリフィル時間を含む | | **e2e_latency** | リクエスト送信から最終トークン受信まで | `TTFT + generation_time` | | **ITL**（Intertoken Latency）| 連続トークン間の平均時間 | `(e2e_latency – TTFT) / (出力トークン数 – 1)` | | **TPS**（Tokens Per Second）| システムスループット（総出力トークン ÷ 時間） | 分母の定義はツールにより異なる | | **RPS**（Requests Per Second）| 完了リクエスト数 ÷ 時間 | | ### ツール間の定義差異 > [!key-insight] GenAI-Perf と LLMPerf の違い > - **ITL**: LLMPerf は TTFT を ITL 計算に含める。GenAI-Perf は含めない。 > - **TPS の分母**: ツールにより「最初のリクエストから最後のレスポンスまで」か「テスト全体の壁時計」かが異なる。 > 両ツールの結果を直接比較する場合は正規化が必要。 ## ユースケースパターン（ISL/OSL プロファイル） | ユースケース | ISL（入力トークン） | OSL（出力トークン） | 特徴 | |-------------|-------------------|---------------------|------| | 翻訳（Translation） | 500〜2000 | 500〜2000 | 入出力比がほぼ 1:1 | | 生成（Generation） | 〜100 | 〜1000 | 短いプロンプトで長い出力 | | 要約（Summarization）| 〜1000 | 〜100 | 長い入力から短い出力 | | 推論（Reasoning） | 〜100 | 1000〜10000 | 思考連鎖（CoT）で出力が極端に長い | 同じハードウェアとモデルでも **ISL/OSL プロファイルが異なればベンチマーク結果は大きく変わる**。実用目的に合わせたプロファイル選択が前提となる。 ## ベンチマークパラメータ - **並列数（Concurrency, N）**: 同時処理リクエスト数。高並列ほど TPS が上がるが、ハードウェア限界で頭打ちになる - **最大バッチサイズ**: GPU メモリと推論エンジン設定が上限を決める - **リクエストレート**: 一定間隔またはポアソン分布（実際のトラフィックをシミュレート） ## ロードテスト vs. パフォーマンスベンチマーク | 目的 | 手法 | 問い | |------|------|------| | **ロードテスト** | 高並列でシステムを限界まで負荷をかける | 「どの並列数でシステムが破綻するか」 | | **パフォーマンスベンチマーク** | 特定の構成・モデル・最適化の効率を測る | 「この最適化でレイテンシが何 ms 改善するか」 | ## 関連ツール - [[GenAI-Perf]]: NVIDIA 製オープンソースベンチマークツール。TTFT・ITL・TPS・RPS を計測 - [[TensorRT-LLM]]: NVIDIA の LLM 推論最適化ライブラリ（量子化・テンソル並列・Flash Attention） - [[NVIDIA NIM]]: コンテナ化された推論エンドポイントマイクロサービス ## 既存 wiki との関係 - **定義体系の一致**: メトリクス定義（TTFT・ITL・TPS・RPS）は道下幹也・Fujii の解説と一貫。[[LLM推論]] 概念ページの指標体系を強化する。 - **ツール差異の追加知見**: GenAI-Perf vs. LLMPerf の ITL/TPS 計算差異は Fujii の記事が指摘した「ツール間の ITL 定義差」を NVIDIA 公式視点から補完する。 - **ユースケースプロファイル**: 翻訳/生成/要約/推論の 4 パターンと数値は本 wiki に新出。 ## 関連 - 概念: [[LLM推論]] / [[サービスレベル目標]] - エンティティ: [[NVIDIA]] / [[GenAI-Perf]] / [[TensorRT-LLM]] / [[NVIDIA NIM]] - ソース（関連）: [[@2026__Zenn__MLエンジニアのための本質から理解するLLM推論]] / [[@2025__さくらのナレッジ__分散推論基盤やその前提の考え方]]