# NVIDIA Dynamo
NVIDIA Dynamo は、NVIDIA が開発するエンタープライズ向け分離型推論プラットフォームである。GPU、NVLink、NVSwitch などの NVIDIA フルスタックと密結合した hardware-software co-design により、671B パラメータ級の巨大モデルを高性能・低レイテンシで推論サーブすることを狙う。(Source: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]])
> [!note] [[Dynamo]] との混同に注意
> 既存の [[Dynamo]] は Amazon の高可用分散キーバリューストア(SOSP 2007)であり、本ページの NVIDIA Dynamo とは別物。本ページは推論サービングフレームワーク。
## 主要コンポーネント
- **Dynamo Planner**: event-driven の動的資源割当。リクエスト率、シーケンス長、GPU 利用率を取り込み、Prefill/Decode 間で GPU を再配分。Kubernetes/Circus で zero-downtime スケール。
- **Smart Router**: KV cache-aware ディスパッチャ。**グローバル radix tree** で KV ブロックの所在を追跡し、KV overlap score と利用率を組み合わせて hit rate を最大化。random/round-robin/KV-aware モードを切替可。**最大 3× の TTFT 改善**を報告。
- **[[NIXL]]**(NVIDIA Inference Xfer Library): 異種メモリ・ストレージ間の hardware-accelerated 統合データ転送ライブラリ。Prefill/Decode 間のノンブロッキング KV 転送を担う。
- **KV Cache Block Manager**: GPU memory / CPU DRAM / SSD / object storage を階層管理。LRU やコスト意識 eviction、asynchronous GET/PUT API。ペタバイト級スケールに対応。
- **Prefill/Decode Workers**: 段階特化 GPU 実行体。NIXL のノンブロッキング転送で相互干渉を排除。
- **API Server**: OpenAI 互換 REST gateway。認証・検証・streaming に対応し、既存クライアントの改修なしで Dynamo 性能を享受できる。
## 性能特性
- GB200 NVL72 上で**最大 30× のリクエスト**処理。
- Hopper GPU + Llama-70B で**2× スループット**。
- Smart Router 単独で**3× TTFT 改善**(再計算削減による)。
## アーキタイプ
[[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] は NVIDIA Dynamo を「full-stack internally optimized」アーキタイプとして整理し、[[DistServe]](research-first)、[[AIBrix]](cloud-native)と並列に置く。
## 関連
- ソース: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]]
- 概念: [[Prefill-Decode分離]] / [[KVキャッシュ管理]] / [[LLM推論]]
- 組織: [[NVIDIA]]
- コンポーネント: [[NIXL]]
- 関連製品: [[DistServe]] / [[AIBrix]] / [[vLLM]] / [[SGLang]]
- 公式: https://developer.nvidia.com/dynamo / https://docs.nvidia.com/dynamo/latest/architecture/disagg_serving.html