TensorRT-LLM - yuuk1's Digital Garden

# TensorRT-LLM [[NVIDIA]] が開発する LLM 推論最適化ライブラリ。量子化・テンソル並列・Flash Attention といった最適化技術を統合し、NVIDIA GPU 上での推論スループット・レイテンシを最大化する。[[GenAI-Perf]] によるベンチマーク測定の主要ターゲットの一つ。 ## 主な機能 - **量子化**: INT8/FP8 量子化による推論高速化とメモリ削減 - **テンソル並列**: 複数 GPU への重みシャーディング - **Flash Attention**: メモリ効率の高いアテンション実装 - **連続バッチング**（Continuous Batching）: スループット最大化のためのリクエストスケジューリング [[Netflix]]は[[Triton Inference Server]]上の本番LLMサービング基盤を当初TensorRT-LLMで構築していたが、2026年夏、オープンソースエンジンとの性能差縮小とワークロード構成の広がり(埋め込み生成・prefill専用推論・カスタム制約ロジック)を理由に、運用適合性を根拠として[[vLLM]]へpaved-pathエンジンを切り替えた。(Source: [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]]) ## 関連 - 開発元: [[NVIDIA]] - 関連ツール: [[GenAI-Perf]] / [[NVIDIA NIM]] / [[Triton Inference Server]] - 概念: [[LLM推論]] - 移行事例: [[@2026__Netflix TechBlog__In-House LLM Serving at Netflix]]([[Netflix]] → [[vLLM]]) - ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]