# NVIDIA Dynamo NVIDIA Dynamo は、NVIDIA が開発するエンタープライズ向け分離型推論プラットフォームである。GPU、NVLink、NVSwitch などの NVIDIA フルスタックと密結合した hardware-software co-design により、671B パラメータ級の巨大モデルを高性能・低レイテンシで推論サーブすることを狙う。(Source: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]]) > [!note] [[Dynamo]] との混同に注意 > 既存の [[Dynamo]] は Amazon の高可用分散キーバリューストア(SOSP 2007)であり、本ページの NVIDIA Dynamo とは別物。本ページは推論サービングフレームワーク。 ## 主要コンポーネント - **Dynamo Planner**: event-driven の動的資源割当。リクエスト率、シーケンス長、GPU 利用率を取り込み、Prefill/Decode 間で GPU を再配分。Kubernetes/Circus で zero-downtime スケール。 - **Smart Router**: KV cache-aware ディスパッチャ。**グローバル radix tree** で KV ブロックの所在を追跡し、KV overlap score と利用率を組み合わせて hit rate を最大化。random/round-robin/KV-aware モードを切替可。**最大 3× の TTFT 改善**を報告。 - **[[NIXL]]**(NVIDIA Inference Xfer Library): 異種メモリ・ストレージ間の hardware-accelerated 統合データ転送ライブラリ。Prefill/Decode 間のノンブロッキング KV 転送を担う。 - **KV Cache Block Manager**: GPU memory / CPU DRAM / SSD / object storage を階層管理。LRU やコスト意識 eviction、asynchronous GET/PUT API。ペタバイト級スケールに対応。 - **Prefill/Decode Workers**: 段階特化 GPU 実行体。NIXL のノンブロッキング転送で相互干渉を排除。 - **API Server**: OpenAI 互換 REST gateway。認証・検証・streaming に対応し、既存クライアントの改修なしで Dynamo 性能を享受できる。 ## 性能特性 - GB200 NVL72 上で**最大 30× のリクエスト**処理。 - Hopper GPU + Llama-70B で**2× スループット**。 - Smart Router 単独で**3× TTFT 改善**(再計算削減による)。 ## アーキタイプ [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] は NVIDIA Dynamo を「full-stack internally optimized」アーキタイプとして整理し、[[DistServe]](research-first)、[[AIBrix]](cloud-native)と並列に置く。 ## 関連 - ソース: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] - 概念: [[Prefill-Decode分離]] / [[KVキャッシュ管理]] / [[LLM推論]] - 組織: [[NVIDIA]] - コンポーネント: [[NIXL]] - 関連製品: [[DistServe]] / [[AIBrix]] / [[vLLM]] / [[SGLang]] - 公式: https://developer.nvidia.com/dynamo / https://docs.nvidia.com/dynamo/latest/architecture/disagg_serving.html