# NVIDIA NIM
**NVIDIA Inference Microservices** の略称。[[NVIDIA]] が提供する、最適化済み推論ランタイムを内包したコンテナ化 LLM エンドポイント。[[TensorRT-LLM]] を推論バックエンドとして使用し、API エンドポイントとして LLM をデプロイするための標準化されたインタフェースを提供する。[[GenAI-Perf]] によるベンチマーク測定の主要ターゲット。
## 特徴
- OpenAI 互換 API エンドポイントとして動作
- [[TensorRT-LLM]] による推論最適化を内包
- Docker コンテナとして配布され、オンプレ・クラウドに対応
## 関連
- 開発元: [[NVIDIA]]
- 推論バックエンド: [[TensorRT-LLM]]
- ベンチマークツール: [[GenAI-Perf]]
- 概念: [[LLM推論]]
- ソース: [[@2025__NVIDIA__LLM-Inference-Benchmarking-Fundamental-Concepts]]