データセンターネットワークトポロジ

# データセンターネットワークトポロジ Navigation: [[index]] | [[AIデータセンタートポロジ]] | [[マルチプレーンClosトポロジ]] ## 定義データセンターネットワークトポロジとは、データセンター内の計算ノード・スイッチ・ルータを相互接続する物理的・論理的な配置構造のことである。主な設計目標は、(1) スケーラブルな相互接続帯域幅、(2) 経済効率（規模の経済）、(3) 後方互換性、(4) 障害耐性の確保である。代表的なトポロジ分類: - **ツリー型（階層型）**: コア・集約・エッジの 2〜3 層。コアスイッチが帯域のボトルネックになる。標準的な IP/Ethernet で動作するが、過剰購読（オーバーサブスクリプション）が発生しやすい。 - **Fat-Tree（Clos の特殊形）**: k-ary Fat-Tree。すべてのスイッチが同一仕様の商用品で構成でき、k ポートスイッチで k³/4 ホストに全二分帯域幅を提供。再配置可能非閉塞（rearrangeably non-blocking）。(Source: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]]) - **Clos ネットワーク**: 1953 年に Charles Clos が電話交換機向けに設計した多段相互接続ネットワーク。現代のデータセンターおよび AI クラスタに広く採用されている基礎概念。 - **トーラス型**: BlueGene/L・Cray XT3 などのスーパーコンピュータで採用。専用スイッチ不要だが、クラスタ環境での配線複雑性が高い。 - **マルチプレーン Clos**: 1 枚の NIC を複数の独立した論理プレーンに分割し、スイッチ段数を増やさずに大規模化。(Source: [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]) ## 主要設計パラメータ | パラメータ | 説明 | |---|---| | 二分帯域幅（bisection bandwidth） | ネットワークを 2 等分した場合の最小カット帯域幅 | | 過剰購読比（oversubscription ratio） | エッジ帯域の合計に対する二分帯域幅の比率。1:1 が理想 | | ファンアウト | 各スイッチが接続できる上位・下位ポート数 | | 経路多様性（path diversity） | 任意の送受信ホスト間に存在する独立経路数 | ## Fat-Tree の構成詳細 k-ary Fat-Tree の要素数: | 要素 | 数量 | |---|---| | ポッド数 | k | | ポッド内エッジスイッチ | k/2 | | ポッド内集約スイッチ | k/2 | | コアスイッチ | (k/2)² | | 総スイッチ数 | 5k²/4 | | サポートホスト数 | k³/4 | k=48 の具体例: - 48 ポッド、各ポッドに 24 エッジ＋24 集約スイッチ - 576 コアスイッチ - 27,648 ホスト、1,152 サブネット（各 24 ホスト） - 任意のポッド間ホスト対に 576 の等コスト経路 - 推定コスト 864 万ドル（従来設計 3,700 万ドルに対して約 77% 削減） ## 横断的知見 - **Fat-Tree から AI 時代のマルチプレーン・マルチレールへ**: Fat-Tree（[[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]]）は均質スイッチで全二分帯域幅を実現したが、百万 GPU スケールでは標準 4 段 Fat-Tree に 50 億ドル超のコストが発生し予算内に収まらない。マルチプレーン（NIC 側で分割）・マルチレール（ラック単位で分割）の組み合わせにより、スイッチ数・リンク数を 1/3 以下に削減できる。(Source: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]], [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **Clos の血統**: 1953 年の Charles Clos の電話交換機設計（[11] として引用）が、60 年以上後のデータセンター・AI クラスタネットワーク設計の基礎となっている。Fat-Tree はその特殊形であり、[[マルチプレーンClosトポロジ]] は NIC 側での分割という形でさらに発展した。(Source: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]], [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]]) - **均質スイッチ設計の経済的優位**: Fat-Tree はすべての層に同一スイッチを使用することで、商用価格下落の恩恵を全層で受けられる。表1によれば、2002〜2008 年の間にコスト/ホスト比が 15 倍以上改善した。高級スイッチを必要とする階層型設計は、商用スイッチの価格下落から恩恵を受けにくい構造的な問題がある。(Source: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]]) - **単一経路ルーティングの限界とマルチパス**: 標準の OSPF や ECMP は Fat-Tree のような豊富な等コスト経路を十分活用できない。ECMP の最大 8〜16 多重制限と転送表エントリの乗算的増加が問題になる。二段ルーティングテーブルは転送表サイズを線形に抑制しつつ宛先の下位バイト（ホスト ID）でフローを分散する点で本質的に異なる解決策である。(Source: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]]) ## 未解決の問い - k=48 の実規模 Fat-Tree での帯域効率は実環境でどの程度達成されるか。論文はシミュレーション・推定ベースのみ。 - 中央フロースケジューラを複製して高可用性を実現する具体的手法は何か。単一障害点リスクへの対処が未詳。 - ARP・マルチキャストなどのブロードキャストドメイン管理はどう扱うか。論文での言及なし。 - Fat-Tree 以降の現代 AI クラスタ設計（マルチプレーン・マルチレール）は、Fat-Tree の二段ルーティングのような独自の経路制御手法を必要とするか、それとも標準プロトコル（BGP ECMP 等）で十分か。 ## 関連 - 概念: [[ECMP]] / [[マルチプレーンClosトポロジ]] / [[AIデータセンタートポロジ]] / [[データセンター輻輳制御]] / [[負荷分散]] - ソース: [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]] / [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] / [[@2026__LinkedIn__Resilient AI Supercomputer Networking - How MRC and SRv6 Keep 100,000+ GPUs Training]] - エンティティ: [[Mohammad Al-Fares]] / [[Amin Vahdat]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2008__SIGCOMM__A Scalable Commodity Data Center Network Architecture]] - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]