GenAI-Perf - yuuk1's Digital Garden

# GenAI-Perf [[NVIDIA]] が開発・公開するオープンソースの LLM 推論ベンチマークツール。TTFT・ITL・TPS・RPS を計測し、[[TensorRT-LLM]] や [[NVIDIA NIM]] のエンドポイントを主なターゲットとする。 ## 計測指標 - **TTFT**（Time to First Token） - **ITL**（Intertoken Latency）: `(e2e_latency – TTFT) / (出力トークン数 – 1)` で算出（TTFT を含まない） - **TPS**（Tokens Per Second） - **RPS**（Requests Per Second） ## LLMPerf との違い | 指標 | GenAI-Perf | LLMPerf | |------|-----------|---------| | ITL の計算 | TTFT を **含まない** | TTFT を **含む** | | TPS の分母 | ツール独自の定義 | ツール独自の定義（異なる） | → 両ツールの結果を直接比較する際は正規化が必要。（出典: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]） ## 関連 - 開発元: [[NVIDIA]] - 対象インフラ: [[TensorRT-LLM]] / [[NVIDIA NIM]] - 概念: [[LLM推論]] - ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]