# TensorRT-LLM
[[NVIDIA]] が開発する LLM 推論最適化ライブラリ。量子化・テンソル並列・Flash Attention といった最適化技術を統合し、NVIDIA GPU 上での推論スループット・レイテンシを最大化する。[[GenAI-Perf]] によるベンチマーク測定の主要ターゲットの一つ。
## 主な機能
- **量子化**: INT8/FP8 量子化による推論高速化とメモリ削減
- **テンソル並列**: 複数 GPU への重みシャーディング
- **Flash Attention**: メモリ効率の高いアテンション実装
- **連続バッチング**(Continuous Batching): スループット最大化のためのリクエストスケジューリング
## 関連
- 開発元: [[NVIDIA]]
- 関連ツール: [[GenAI-Perf]] / [[NVIDIA NIM]]
- 概念: [[LLM推論]]
- ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]