# TensorRT-LLM [[NVIDIA]] が開発する LLM 推論最適化ライブラリ。量子化・テンソル並列・Flash Attention といった最適化技術を統合し、NVIDIA GPU 上での推論スループット・レイテンシを最大化する。[[GenAI-Perf]] によるベンチマーク測定の主要ターゲットの一つ。 ## 主な機能 - **量子化**: INT8/FP8 量子化による推論高速化とメモリ削減 - **テンソル並列**: 複数 GPU への重みシャーディング - **Flash Attention**: メモリ効率の高いアテンション実装 - **連続バッチング**(Continuous Batching): スループット最大化のためのリクエストスケジューリング ## 関連 - 開発元: [[NVIDIA]] - 関連ツール: [[GenAI-Perf]] / [[NVIDIA NIM]] - 概念: [[LLM推論]] - ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]