# NVIDIA NIM **NVIDIA Inference Microservices** の略称。[[NVIDIA]] が提供する、最適化済み推論ランタイムを内包したコンテナ化 LLM エンドポイント。[[TensorRT-LLM]] を推論バックエンドとして使用し、API エンドポイントとして LLM をデプロイするための標準化されたインタフェースを提供する。[[GenAI-Perf]] によるベンチマーク測定の主要ターゲット。 ## 特徴 - OpenAI 互換 API エンドポイントとして動作 - [[TensorRT-LLM]] による推論最適化を内包 - Docker コンテナとして配布され、オンプレ・クラウドに対応 ## 関連 - 開発元: [[NVIDIA]] - 推論バックエンド: [[TensorRT-LLM]] - ベンチマークツール: [[GenAI-Perf]] - 概念: [[LLM推論]] - ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]