NVIDIA Dynamo - yuuk1's Digital Garden

# NVIDIA Dynamo NVIDIA Dynamo は、NVIDIA が開発するエンタープライズ向け分離型推論プラットフォームである。GPU、NVLink、NVSwitch などの NVIDIA フルスタックと密結合した hardware-software co-design により、671B パラメータ級の巨大モデルを高性能・低レイテンシで推論サーブすることを狙う。(Source: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]]) > [!note] [[Dynamo]] との混同に注意 > 既存の [[Dynamo]] は Amazon の高可用分散キーバリューストア(SOSP 2007)であり、本ページの NVIDIA Dynamo とは別物。本ページは推論サービングフレームワーク。 ## 主要コンポーネント - **Dynamo Planner**: event-driven の動的資源割当。リクエスト率、シーケンス長、GPU 利用率を取り込み、Prefill/Decode 間で GPU を再配分。Kubernetes/Circus で zero-downtime スケール。 - **Smart Router**: KV cache-aware ディスパッチャ。**グローバル radix tree** で KV ブロックの所在を追跡し、KV overlap score と利用率を組み合わせて hit rate を最大化。random/round-robin/KV-aware モードを切替可。**最大 3× の TTFT 改善**を報告。 - **[[NIXL]]**(NVIDIA Inference Xfer Library): 異種メモリ・ストレージ間の hardware-accelerated 統合データ転送ライブラリ。Prefill/Decode 間のノンブロッキング KV 転送を担う。 - **KV Cache Block Manager**: GPU memory / CPU DRAM / SSD / object storage を階層管理。LRU やコスト意識 eviction、asynchronous GET/PUT API。ペタバイト級スケールに対応。 - **Prefill/Decode Workers**: 段階特化 GPU 実行体。NIXL のノンブロッキング転送で相互干渉を排除。 - **API Server**: OpenAI 互換 REST gateway。認証・検証・streaming に対応し、既存クライアントの改修なしで Dynamo 性能を享受できる。 ## 性能特性 - GB200 NVL72 上で**最大 30× のリクエスト**処理。 - Hopper GPU + Llama-70B で**2× スループット**。 - Smart Router 単独で**3× TTFT 改善**(再計算削減による)。 ## アーキタイプ [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] は NVIDIA Dynamo を「full-stack internally optimized」アーキタイプとして整理し、[[DistServe]](research-first)、[[AIBrix]](cloud-native)と並列に置く。 ## RL 訓練での利用(推論エンジンのライフサイクル管理) 推論サービング以外の文脈でも採用が広がっている。[[Cognition]] の [[SWE-1.7]] は非同期 RL のマルチクラスタ訓練で NVIDIA Dynamo をロールアウト用推論エンジンのライフサイクル管理・ルーティングに用いる。各エージェントサンドボックスのプロキシがトークンの入出力を記録するため、推論レプリカが落ちても軌跡全体は失われず、Dynamo が別ワーカーへ再ルーティングする。レプリカが健全なノードで再スケジュールされる際は、weight controller が object storage から最新チェックポイントをロードし差分を再生する(Source: [[@2026__Cognition__SWE-1.7 - Frontier Intelligence at a Fraction of the Cost]])。 ## 設計空間の定量的裏付け [[Tiyasa Mitra]]・[[Bita Darvish Rouhani]]ほか([[NVIDIA]])による「[[@2026__MLSys2026__Beyond the Buzz - A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference]]」(MLSys 2026 Industry Track Oral)は、Dynamo Planner が担う動的レートマッチングの必要性を、数十万の設計点シミュレーションで定量的に裏付ける。最適な Ctx:Gen GPU 比はモデル・トラフィックパターン・レイテンシ目標により大きく変動し、固定比率では緩いレイテンシ目標かタイトな TTL のいずれか一方でしか高性能を発揮できないことを示した(Figure 9・10)。disaggregation の恩恵は prefill-heavy なトラフィックと大規模モデルで最大化される一方、decode-heavy なトラフィックや小規模モデルでは限定的であることも定量化しており、Dynamo Planner がどのような条件で価値を持つかの実証的根拠を与える。(Source: [[@2026__MLSys2026__Beyond the Buzz - A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference]]) ## 関連 - ソース: [[@2025__arXiv__From Attention to Disaggregation - Tracing the Evolution of LLM Inference]] / [[@2026__Cognition__SWE-1.7 - Frontier Intelligence at a Fraction of the Cost]] / [[@2026__MLSys2026__Beyond the Buzz - A Pragmatic Exploration of Prefill-Decode Disaggregation in Large Scale Inference]] - 概念: [[Prefill-Decode分離]] / [[KVキャッシュ管理]] / [[LLM推論]] - 組織: [[NVIDIA]] - コンポーネント: [[NIXL]] - 関連製品: [[DistServe]] / [[AIBrix]] / [[vLLM]] / [[SGLang]] - 公式: https://developer.nvidia.com/dynamo / https://docs.nvidia.com/dynamo/latest/architecture/disagg_serving.html