## Memo
- ![[Pasted image 20250605153749.png|600]]
## Memo with LLM
https://claude.ai/chat/850b4ca8-bfcf-4922-9fa0-5a102086b78a
### 論文情報
- **論文タイトル**: I've Got 99 Problems But FLOPS Ain't One
- **著者と所属**: Alexandru M. Gherghescu¹, Vlad-Andrei Bădoiu¹, Alexandru Agache¹, Mihai-Valentin Dumitru¹, Iuliu Vasilescu¹, Radu Mantu¹, Costin Raiciu¹,²(¹University Politehnica of Bucharest, ²Broadcom Inc.)
- **カンファレンス名**: HOTNETS '24
- **発表年**: 2024年
### 論文概要
本論文は、OpenAIとMicrosoftが計画している1000億ドル規模のデータセンターでの機械学習モデル訓練を想定し、そこで発生するネットワーキング上の課題を分析している。著者らは、100兆パラメータのTransformerモデルを訓練する際に必要となる新しいネットワーク技術として、データセンター間通信用の広域トランスポート、データセンター内通信用のマルチパストランスポート、新しいデータセンタートポロジー、高速スケールアップネットワークなどを提案している。
### 詳細解説
#### 問題設定
- **入力**: 1000億ドルの予算で構築可能なデータセンターのインフラ仕様(Nvidia Blackwell GB200 GPU、NVL72ラック構成など)
- **出力**: そのインフラで訓練可能な最大規模の言語モデルと、その際に発生するネットワーキング課題の特定
- **必要なデータ**: GPU性能仕様、電力消費量、ネットワーク帯域幅、スケーリング法則、トレーニング時間計算式
具体的には、NVL72ラック(130kW TDP、1,440 PFlops性能)を23,300台、総167万GPU、3.6GWの電力消費を前提として分析を行っている。
#### 提案手法
論文では複数の技術的解決策を提案している:
1. **マルチプレーン・マルチレール設計**:
- 従来の[[Fat-Tree]]トポロジーでは87,500台のスイッチと240万本のケーブルが必要で費用が50億ドルに達する
- 4プレーン設計により256ポートスイッチを使用し、3階層で十分な接続を実現
- 76レール・4プレーン構成で、スイッチチップを50%、ケーブルを66%削減
2. **3D並列処理最適化**:
- テンソル並列度t=18、パイプライン並列度134、データ並列度696を採用
- 1ラックあたり4層を配置し、スケールアップ通信を局所化
3. **通信時間の計算**:
- テンソル並列: 8.2ms(NVLink使用)
- パイプライン並列: 2.17ms(800Gbpsスケールアウト使用)
- データ並列: 5段階の階層的all-reduce(16.57ms + 98.27ms + 60ms + 49.14ms + 8.3ms)
#### 新規性
- **スケールの新しさ**: 従来研究が数万GPU規模だったのに対し、167万GPU規模での分析は前例がない
- **実用的制約の考慮**: 電力網の制約から東西海岸への分散配置を提案
- **ネットワーク設計の革新**: 従来のクラウド向けClos網ではなく、ML特化のマルチプレーン・マルチレール設計を提案
- **包括的分析**: インフラ、モデル設計、ネットワークトポロジー、トランスポートプロトコルを統合的に検討
#### 実験設定
- **モデル仕様**: 100兆パラメータ[[Transformer]](134層、256アテンションヘッド、244,224隠れ次元)
- **評価指標**:
- 露出通信時間(Exposed networking time)の割合
- フロー完了時間(FCT)
- ネットワーク利用率
- **シミュレーション環境**: 8,192ホストの2階層Fat Treeトポロジー、800Gbpsリンク
- **比較対象**: [[RoCEv2]]、NDP、Homaなどの既存トランスポートプロトコル
#### 実験結果
1. **露出通信時間**:
- 標準Transformer: 5%(理想的ネットワーク)
- Mixture of Experts: 20%(理想的ネットワーク)
- スケールアップ速度800Gbps時: 標準40%、MoE75%に増加
2. **フロー完了時間**:
- 最適FCT: 1ms
- RoCEv2: 9ms(9倍の遅延)
- マルチパス対応プロトコル: 最適値の5%以内
3. **ネットワーク容量の影響**:
- スケールアウト速度400Gbps以上で標準Transformerの露出時間が安定
- MoEでは1.6Tbpsで5%未満に改善
- 広域通信で20Gbps/GPU以上あれば遅延を完全にマスク可能
これらの結果から、大規模AI訓練には従来のネットワーク設計では不十分であり、新しいマルチパストランスポートと専用トポロジーが必要であることが示された。
### インフラストラクチャに関する知見
#### 電力・設備面
- **電力制約が最大の障壁**: 167万GPU(3.6GW)を単一地点で運用するのは米国内では不可能
- **地理的分散の必要性**: PJMグリッドで最大9,915MW利用可能だが、単一地点では制約があるため東西海岸分散が現実的
- **冷却とPUE**: Microsoftの実績値1.15-1.3のPUEを考慮すると総電力消費は4.16-4.71GWに達する
- **予算配分の現実**: データセンター予算の70%が計算資源、10%がネットワーキングという業界標準
#### ハードウェア仕様
- **GPU密度の進化**: NVL72ラック構成で72GPU/ラック、130kW TDP、1,440 PFlops性能
- **メモリ要件**: 100兆パラメータモデルで384.14TB(モデル144.04TB + 勾配48.01TB + オプティマイザ192.05TB)
- **精度の選択**: FP4演算による計算効率化とメモリ利用率最大化
### モデル設計・訓練に関する知見
#### スケーリング法則
- **訓練時間の予測**: Hoffmann et al.のアプローチ2で100兆パラメータモデルは48ヶ月の訓練時間
- **計算バウンドからネットワークバウンドへ**: 標準Transformerは計算バウンド、MoEはネットワークバウンドに移行
- **モデル構成の最適化**: 134層、256アテンションヘッド、32kトークンシーケンス長、256,000語彙サイズ
#### 並列処理戦略
- **3D並列処理の有効性**: テンソル並列(t=18) + パイプライン並列(134) + データ並列(696)の組み合わせが最適
- **ラック内配置戦略**: 同一ラック内に同一層の異なるレプリカを配置することで通信効率を向上
- **アクティベーション管理**: 選択的再計算により計算時間の増加を0.97%に抑制
### ネットワーキングに関する知見
#### 通信パターンの分析
- **露出通信時間**: 標準Transformer 5%、MoE 20%(理想的ネットワーク)
- **通信階層の重要性**: スケールアップ(NVLink)> スケールアウト(データセンター内)> 広域(データセンター間)
- **同期ポイントの影響**: テンソル並列とパイプライン並列の通信は計算とオーバーラップ不可
#### トポロジー設計
- **従来設計の限界**: 標準Fat Treeでは87,500スイッチ、240万ケーブルで50億ドルのコスト
- **マルチプレーン効果**: 4プレーン設計でスイッチ数とケーブル数を1/3削減
- **マルチレール効果**: 72レール設計で各ラックから1GPUのみを個別ネットワークに接続
- **コスト削減**: 76レール・4プレーン構成でスイッチチップ50%、ケーブル66%削減
#### トランスポートプロトコル
- **単一パスの限界**: RoCEv2で最適値の9倍の遅延(1ms → 9ms)
- **マルチパスの有効性**: NDP、Homaなどで最適値の5%以内に改善
- **ロスレスネットワークの課題**: PFC、ECMP衝突、HOLブロッキングによる性能劣化
- **ベストエフォート移行**: 業界がロスレスからベストエフォート運用へ移行中
### スケールアップネットワークに関する知見
#### 技術進化
- **アーキテクチャの変遷**: メッシュ接続 → スイッチベース → 単一階層マルチプレーン
- **ワークロードの変化**: キャッシュコヒーレント通信 → コレクティブ通信
- **標準化の動き**: UALink コンソーシアムによる標準化努力
#### 研究課題
- **未解決問題**: 相互接続トポロジー、ネットワーク層、トランスポートプロトコル、輻輳制御、API設計
- **インネットワーク処理**: Nvidia Sharpのようなスイッチ内コレクティブ実装の有効性
### 広域通信に関する知見
#### 要件とチャレンジ
- **帯域幅要件**: 1フロー当たり最低5Gbps、GPU当たり20Gbps以上で遅延完全マスク
- **RTTの影響**: 60msのRTTでテール損失が発生すると露出通信時間が大幅増加
- **プロトコル選択**: TCPの適応的CWND、B4型コントローラ、冗長性追加などの選択肢
### 運用・管理に関する知見
#### 障害対応
- **障害ドメイン**: テンソル並列の障害ドメインがラックレベルに限定
- **フォルトトレランス**: 東西分散配置による自然災害・人災への耐性向上
- **冗長性確保**: 訓練ワークロードと推論ジョブの混在による利用率向上
#### ジョブスケジューリング
- **配置制約**: マルチレール設計でのGPU配置自由度の制限
- **ロードバランシング**: 単一パストランスポートでの手動データ分割の非効率性
- **トラフィック局所性**: クラスタマネージャーによる局所性活用の重要性
### 監視・デバッグに関する知見
#### 新しい要件
- **複数ネットワーク対応**: マルチレール・マルチプレーン + スケールアップネットワークの統合監視
- **高速データ対応**: 800Gbps+での従来サンプリング手法の限界
- **全体像把握**: 単一ネットワーク監視では不十分
### 将来の研究方向
#### 技術的課題
- **新しいアーキテクチャ**: 線形アテンション、準二次モデルの可能性(ただし性能懸念あり)
- **精度最適化**: FP4以下の精度での訓練手法
- **効率化手法**: 量子化、オンザフライデコーディングなどの実時間最適化
#### システム統合
- **ワークロード混在**: 長時間訓練と短時間推論の効率的混在
- **動的最適化**: 実行時のネットワーク状況に応じた動的最適化
- **エンドツーエンド設計**: アプリケーションからハードウェアまでの統合最適化
### 経済・政策面の示唆
#### 投資の現実性
- **技術的実現可能性**: 1000億ドル投資でのAIデータセンター構築は技術的に可能
- **インフラ依存性**: 電力インフラが最大の制約要因
- **段階的構築**: 地理的分散による段階的な容量拡張の必要性
#### 産業への影響
- **ネットワーク業界**: 従来のクラウドネットワーク設計からAI特化設計への転換
- **標準化の重要性**: 複数ベンダー対応のためのEthernet標準化推進
- **研究優先度**: ネットワーキング研究コミュニティにとっての豊富な研究アジェンダ
## Abstract
ハイパースケーラーは、大規模ネットワークの展開分野を支配していますが、彼らが直面している課題に関するデータや知見を共有することはほとんどありません。この優位性を踏まえて、この分野ではどのような問題を解決すべきでしょうか?我々は、機械学習アプリケーション向けに 1,000 億ドルのデータセンターを構築するという公開計画 [53] から出発し、関連する研究の方向性を見つけるために、型破りなアプローチを採用しています。言語モデルのスケール法則を活用し、このようなデータセンターが扱う可能性のあるワークロードを発見し、ネットワーク研究に焦点を当てながら、その実現における課題を探ります。結論として、データセンターの構築とこのようなモデルのトレーニングは技術的には可能ですが、DC 間の通信には新しい広域トランスポート、データセンター内の通信にはマルチパストラスポートと新しいデータセンタートポロジー、高速スケールアップネットワークとトランスポートが必要であり、ネットワークコミュニティにとって豊富な研究課題が浮き彫りになりました。