AIデータセンタートポロジ - yuuk1's Digital Garden

# AIデータセンタートポロジ ## 定義 AI/ML ワークロード、特に LLM 分散訓練に特化したデータセンターネットワークトポロジの設計・選択・コスト最適化に関する概念。従来のクラウドサービス向け Clos ネットワーク(Fat Tree)とは根本的に異なり、**スケールアップネットワーク**(ラック内 GPU 間高速相互接続)と**スケールアウトネットワーク**(ラック間通信)の二層構造が中心となる。スケールアップネットワークは NVIDIA NVLink/NVSwitch・AMD Infinity Fabric・Intel Gaudi の Ethernet など独自/標準実装があり、テンソル・シーケンス並列の高帯域・低レイテンシ通信を担う。スケールアウトネットワークは RoCEv2 または InfiniBand を用い、データ並列・パイプライン並列の通信を担う。([[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) ## 主要設計軸 ### スケールアップネットワークラック内 GPU の全結合高速接続。NVIDIA NVL72 では 1 ラック 72 GPU が NVSwitch で 14.4 Tbps NVLink で相互接続。テンソル/シーケンス並列の all-gather + reduce-scatter(計算と隠蔽不可)を担う。スケールアップ帯域が百万 GPU スケールでは支配的ボトルネックになる。 ### スケールアウトネットワーク(Fat Tree) ラック間接続。標準 Fat Tree は 4 段・87,500 スイッチ・240 万リンクを要し、光トランシーバだけで 50 億ドルに達する。予算 10%(50 億ドル/DC)を大幅に超えるため代替が必要。 **マルチプレーン設計**: 1 チップを複数の論理プレーンに構成し実効スイッチラジクスを拡大。256 ポートスイッチで 3 段まで削減。スイッチ数・リンク数を 1/3 に減らせる。 **マルチレール設計**: 各ラックの 1 GPU のみをスケールアウトに接続し、ラックを独立レールに分割。72 レール × 11K GPU のサブネットワーク。組み合わせると**スイッチコスト 50%・リンクコスト 66% 削減**が可能。 ### ワイドエリアネットワーク(複数 DC 間) 電力制約から単一拠点で 4 GW 以上を調達できないため、複数 DC(東西海岸分割等)にわたる訓練が必要になる。GPU あたり 20 Gbps 以上のワイドエリア帯域と無損失トランスポートがあれば、30 ms 伝播遅延を計算で完全に隠蔽できる。 ## 横断的知見 - **Fat Tree からマルチプレーン・マルチレールへのシフトが不可避**: 百万 GPU スケールではスイッチコストが 50 億ドル/DC を超え、従来の完全プロビジョニング Fat Tree は予算内に収まらない。マルチプレーン・マルチレール合算でコスト半減が実現可能。ただしスケジューリング(Slurm 等)とフォールトトレランスの新たな対応が必要。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **スケールアップ帯域がスケールアウトより先に飽和する**: 0.8 Tbps では露出ネットワーキング 40%/75%、14.4 Tbps(NVLink 5 相当)で 5%/20%。スケールアウト 800 Gbps で頭打ちになるが、スケールアップは依然改善余地が大きい。つまり「ネットワークがボトルネット」の中でも、スケールアップが最優先の研究課題。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **トポロジとスケジューリングは密結合**: マルチレール構成ではラック N の GPU N がラック M の GPU N とのみ直接通信できる(N≠M の GPU は scale-up を経由)。障害時の配置変更自由度が下がる。完全マルチレールよりレール数を減らしてスケジューリング自由度を確保する設計トレードオフがある。 ## 未解決の問い - マルチレール・マルチプレーンはジョブスケジューリング(Slurm 等)とフォールトトレランスにどう影響するか。既存のスケジューラは対応できるか。 - 「目標モデルに対して最適なマルチプレーン数・レール数の組み合わせ」を自動的に決定するアルゴリズムはあるか。 - ワイドエリアトランスポートでは B4 的なコントローラ(トラフィックエンジニアリング + アドミッションコントロール)と分散型マルチパスのどちらが LLM 訓練に適するか。 - スケールアップネットワークの標準化(UALink グループ)は NVLink 的なスイッチベース多段に落ち着くか、それとも P2P メッシュが残るか。 - マルチプレーン + マルチレール構成で、訓練中のランク配置がトポロジ局所性を利用できるか、現行の NCCL/通信プリミティブはそのまま使えるか。 ## 関連 - 概念: [[LLM分散学習]] / [[データセンター輻輳制御]] / [[RDMA]] / [[集合通信]] / [[RoCE設計課題]] / [[ネットワーク対応スケジューリング]] - ソース: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] / [[@2025__SIGCOMM__Astral - A Datacenter Infrastructure for Large Language Model Training at Scale]] / [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] - エンティティ: [[Costin Raiciu]] / [[University Politehnica of Bucharest]] / [[Broadcom]] / [[NVIDIA]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]