> [!abstract] 概要 > 分散訓練において通信は性能のボトルネックとなりうる重要な要素である。先行研究は特定の最適化や不完全な通信特性の調査に留まっている。本研究は、通信パターン(予測可能性・規則性)と通信オーバーヘッド(通信時間の割合)という 2 側面から分散訓練の通信特性を体系的に分析した。モデルアーキテクチャ、訓練スケール、ネットワークプロトコル、並列化戦略、ハードウェアプラットフォームなど多次元の要因を評価する。特に現代の DNN 訓練における予測可能性と半予測可能性の共存を明らかにし、予測可能なモデルの通信オーバーヘッドを数学的に定式化して推定する解析的な定式化を開発した。 ## 論文情報 | 項目 | 内容 | |------|------| | 著者 | Wenxue Li, Xiangzhou Liu, Yuxuan Li, Yilun Jin, Han Tian, Zhizhen Zhong, Guyue Liu, Ying Zhang, Kai Chen | | 所属 | iSING Lab (HKUST), USTC, MIT, Peking University, Meta | | 発表先 | APNet 2024 (8th Asia-Pacific Workshop on Networking) | | 開催日時 | 2024-08-03〜04, Sydney, Australia | | DOI | https://doi.org/10.1145/3663408.3663409 | | 対応著者 | Kai Chen (HKUST) | ## 概要 本論文は、分散 DNN 訓練における通信特性を **パターン** と **オーバーヘッド** の 2 観点から体系的に実測・分析した計測論文である。ResNet50・VGG16・Bert・GPT などの代表モデルを対象に、データ並列(DP)・テンソル並列(TP)・パイプライン並列(PP)の組み合わせ(PTD-P)、3 種類のハードウェアプラットフォーム(RTX3090-PCIe、V100-PCIe、V100-NVLink)、2 種類のネットワークプロトコル(TCP/RoCEv2)、4〜32 GPU の訓練スケールを変化させて実験を行った。 ## 問題設定 分散 DNN 訓練では通信がボトルネックになることが多く、先行研究は次の問題点を抱えていた: - クラスタレベルのメトリクスのみ(ジョブ完了時間・クラスタ利用率)に注目し、ジョブ内の細粒度特性を見逃す - データ並列のみを扱い、テンソル並列・パイプライン並列などのモデル並列を考慮しない - ネットワーク帯域をピーク値として直接定式化に代入し、プロトコルの影響を無視する 本研究は個別ジョブのきめ細かい特性に着目し、通信パターンとオーバーヘッドの両面から包括的な調査を行う。 ## 提案手法 本論文は実験的な計測研究であり、以下の設計・枠組みを提示する。 ### 実験設計 **ハードウェアプラットフォーム**: - RTX3090-PCIe: GPU24GB、PCIe 3.0×16、100 Gbps ConnectX-5 - V100-PCIe: GPU32GB、PCIe 3.0×16、100 Gbps ConnectX-5 - V100-NVLink: GPU32GB、NVLink-V2、100 Gbps ConnectX-5 **評価モデル**: - 密活性化モデル: ResNet50(24.37M)、ResNet101(42.49M)、VGG16(131.95M)、Bert-base(104.44M)、Bert-large(319.64M)、GPT-1.5B〜3B - 疎活性化モデル: GPT ベース MoE(125M〜760M) **フレームワーク**: - ResNet/VGG/Bert: PyTorch DDP - GPT: DeepSpeed の PTD-P(パイプライン並列 + テンソル並列 + データ並列) - 訓練スケール: 4〜32 GPU ### 解析的定式化 GPT モデルの反復時間を式 (1) で分解する: $T_{\rm iter} = T_{\rm comp} + T_{\rm TP} + T_{\rm PP} + T_{\rm DP} + T_{\rm bubble}$ 各成分の詳細: - **TP 時間**: トランスフォーマーブロックあたり 6 回の AllReduce 操作(再計算込み)。$T_{\rm TP} = m \times \frac{l}{p} \times \frac{6 \times 2bsh \times 2(t-1)}{t \times C_{\rm TP}}$ - **PP 時間**: 隣接ステージ間の send/recv 1 回ずつ。$T_{\rm PP} = m \times \frac{2 \times 2bsh}{C_{\rm PP}}$ - **DP 時間**: AllReduce によるモデルパラメータ集約。$T_{\rm DP} = \frac{2N}{p \times t} \times \frac{2(d-1)}{d \times C_{\rm DP}}$ - **バブル時間**: 1F1B スケジュールによる GPU アイドル時間。$T_{\rm bubble} = (p-1)(T_{\rm comp}^{\rm mb} + T_{\rm PP}^{\rm mb} + T_{\rm TP}^{\rm mb})$ - **計算時間**: 1 パラメータ・1 トークンあたり約 8 FLOP を前提。$T_{\rm comp} = \frac{8m \times N \times b \times s}{p \times t \times \mu F}$ GPU 利用率係数 $\mu$ は RTX3090 で 0.3、V100 で 0.4(大きいメモリが並列 SM の効率を上げる)。 ## 新規性 1. **ハイブリッド並列に対する体系的な通信特性分析**: 先行研究の大半がデータ並列のみを扱うのに対し、TP・PP・DP の組み合わせ(PTD-P)まで含めた通信パターンとオーバーヘッドを初めて包括的に分析した。 2. **半予測可能性の実証**: MoE モデルの通信パターンが訓練進行とともに均一性を増し、「予測可能→予測可能」への収束軌跡(半予測可能)を定量化した。 3. **解析的定式化の開発と検証**: GPT 訓練の通信オーバーヘッドを解析的に定式化し、4 実験設定で約 90% の推定精度を実証した。 ## 実験設定 - RTX3090-PCIe・V100-PCIe・V100-NVLink の 3 プラットフォーム - モデル: ResNet50/101・VGG16・Bert-base/large(DP)、GPT-1.5B/3B(PTD-P) - MoE モデル: GPT ベース 125M/350M/760M パラメータ - 訓練スケール: 4〜32 GPU - ネットワークプロトコル: TCP(Cubic)対 RoCEv2(DCQCN) - トポロジ: ToR スイッチによる直接接続 ## 実験結果 ### パターン分析 **メッセージサイズ分布**: - VGG16 は全結合層に起因する巨大メッセージ(最大 392 MB)を持ち、ResNet50 はすべて小さい。PyTorch DDP の 25 MB バケットサイズ設計により多くのメッセージが 25 MB 付近に集中する。 - GPT モデルは 100 MB 超の大規模フローが支配的で、従来のデータセンターアプリケーションとは異なる。 **PTD-P での通信量構成(GPT-3B、32 GPU、rank 0)**: | 通信種別 | 通信量 | メッセージ数 | メッセージサイズ | |----------|--------|------------|----------------| | TP | ~85 GB | 680 | 125 MB | | PP | ~1 GB | 16 | 125 MB | | DP | 741 MB | 1 | 741 MB | | EmbTableSyn | 96 MB | 1 | 96 MB | TP が総通信量の約 99% を占める。この傾向はすべての実験で一貫していた。 **通信マトリクスの予測可能性**: 並列化戦略とマッピングが決まれば、実際に実行する前に通信マトリクス(どの GPU ペアが通信するか)を事前に計算できる。並列化マッピングが異なると同一の論理並列化戦略でも異なるヒートマップになる。 **MoE の半予測可能性**: MoE では学習の進行とともにトークン分布の均一性が増し、非均一係数が低下する。3 サイズ(125M/350M/760M)すべてで訓練初期 100 イテレーション内に収束する傾向が観察された。 ### オーバーヘッド分析 **GPT 訓練の通信比率**(デフォルトマッピング、32 GPU): - TP が通信時間の約 50% を占める - 32 GPU では 16 GPU 比 DP 時間が大幅増加(DP グループ拡大 + 帯域効率低下) - カスタムマッピング(PP 通信をノード内、DP 通信をノード間)では PP オーバーヘッド低下・DP オーバーヘッド増加 **RoCEv2 対 TCP の効果**: - AllReduce ベンチマーク: 10 MB 超のメッセージで RoCEv2 が TCP 比 1.8× のスループット - VGG16 実訓練: RoCEv2 が通信時間 2×・反復時間 1.5× 削減 - GPT-3B 実訓練: PP 通信 2.5×・DP 通信 1.6× 削減。TP はノード内通信のためプロトコルの影響なし **ハードウェアプラットフォームの影響**(AllReduce ベンチマーク): - V100-NVLink が V100-PCIe 比 2.2×、RTX3090 比 3.7× の高スループット(NVLink の上位帯域に起因) - RTX3090 と V100-PCIe の差は NCCL_P2P の有無(V100 では有効) **DP モデルの弱スケーリング**: - 通信量は増加するが計算時間はほぼ一定(弱スケーリング設定) - スケールアップで実効帯域幅が低下し、通信比率が増加 ### 解析的定式化の精度 4 実験設定(RTX3090 × 16/32・V100 × 4/8)で計算時間・バブル比・通信時間・通信比の推定精度を検証し、大多数の実験で約 90% の精度を達成した。 ## 考察 - **通信ボトルネックは並列化次元ごとに異なる**: TP はトラフィック量が最大(PTD-P で約 99%)だがノード内通信のためプロトコル選択の影響を受けない。一方 PP・DP はノード間通信でプロトコルの差が顕著に現れる。 - **並列化マッピングが通信オーバーヘッドを再分配する**: 同一の論理並列化戦略でも物理配置(マッピング)によってノード内/ノード間の割り当てが変わり、性能プロファイルが変化する。 - **MoE の動的な通信量はゲーティング学習の副産物**: top-2 ゲーティングにより 1 トークンが 1〜2 エキスパートを選択でき、訓練初期は偏りが大きく後半は均一化する。 ## 強み / 弱点・課題 **強み**: - データ並列・モデル並列の両方を含むハイブリッド並列化の通信特性を初めて体系的に分析した - 実機測定に基づき、理論値ではなく実測値で通信特性を裏付けた - 解析的定式化を開発し約 90% の推定精度を検証した **弱点・課題**: - 実験規模が最大 32 GPU に留まり、数百〜数万 GPU の大規模設定での一般化が未検証 - 評価した GPU は RTX3090・V100 と旧世代に限られ、A100・H100 での挙動は未確認 - DeepSpeed の PTD-P がデフォルトで DP AllReduce とバックワード計算をオーバーラップしない実装になっており、より高い性能の構成での評価が課題 - MoE の ep(エキスパート並列)の詳細な通信特性分析は今後の課題 - ドメイン固有の特性や通信オーバーヘッドの内訳(実効帯域幅の決定要因)の詳細分析が残課題 ## 関連 - [[LLM分散学習]] — 分散訓練システム全体の地図 - [[並列化戦略]] — TP/PP/DP/EP の定義と横断的知見 - [[集合通信]] — AllReduce・AllGather・AllToAll の特性 - [[Kai Chen]] — 対応著者、HKUST iSING Lab 主宰 - [[iSING Lab]] — 本論文の主体機関