## Memo
![[Pasted image 20250905005453.png]]
## Memo with LLM
### 論文情報
- **タイトル**: Understanding Communication Characteristics of Distributed Training
- **著者と所属**:
- Wenxue Li¹, Xiangzhou Liu¹, Yuxuan Li¹, Yilun Jin¹ (Hong Kong University of Science and Technology, iSING Lab)
- Han Tian² (University of Science and Technology of China)
- Zhizhen Zhong³ (MIT)
- Guyue Liu⁴ (Peking University)
- Ying Zhang⁵ (Meta)
- Kai Chen¹ (Hong Kong University of Science and Technology, iSING Lab) ※責任著者
- **カンファレンス名**: APNet 2024 (8th Asia-Pacific Workshop on Networking)
- **発表年**: 2024年8月3-4日、シドニー、オーストラリア
### 論文概要
本論文は分散学習における通信特性を体系的に分析し、通信パターンとオーバーヘッドの2つの重要な側面から包括的な理解を提供する研究である。従来研究が特定の最適化や不完全な分析に限定されていたのに対し、本研究では多次元的アプローチにより様々な決定要因の影響を評価し、予測可能性などの通信パターンの特徴を詳細に調査するとともに、通信オーバーヘッドを推定する解析的定式化を開発・検証している。
### 詳細解説
#### 問題設定
**入力**: 分散学習システムにおける通信の特性分析
- **データ**: ResNet50/101、VGG16、Bert-base/large、GPTモデル(1.5B〜3Bパラメータ)
- **ハードウェア**: RTX3090-PCIe、V100-PCIe、V100-NVLinkの3つのプラットフォーム
- **並列化戦略**: データ並列(DP)、テンソル並列(TP)、パイプライン並列(PP)の組み合わせ
- **ネットワークプロトコル**: TCP(Cubic CC)とRoCEv2(DCQCN CC)
- **トレーニング規模**: 4〜32 GPU
**出力**: 通信パターンの予測可能性分析、通信オーバーヘッドの定量評価、解析的推定モデル
#### 提案手法
**通信パターン分析**:
- **予測可能性の詳細分析**: 密に活性化されたモデル(ResNet、VGG、BERT、GPT)では通信マトリックスとトラフィック量の両方が予測可能であることを実証
- **半予測可能性の発見**: Mixture of Experts(MoE)などの疎に活性化されたモデルでは、訓練の進行とともに予測可能性と均一性が向上する「半予測可能性」を確認
- **規則性の特定**: DNN訓練では一貫した「オン・オフ」送信形状を示し、イテレーション間で反復する規則的なパターンが存在
**通信オーバーヘッド分析**:
- **多要因分析**: モデルアーキテクチャ、訓練規模、ネットワークプロトコル、並列化戦略、ハードウェアプラットフォームが通信オーバーヘッドに与える影響を定量評価
- **プロトコル影響**: RoCEv2がTCPと比較して2〜2.5倍の通信時間短縮を実現
- **並列化マッピング**: 論理並列化戦略から物理ハードウェアへのマッピング方法により通信オーバーヘッドが大幅に変化
**解析的定式化**:
GPTモデルの通信オーバーヘッド推定式を開発:
```
T_iter = T_comp + T_TP + T_PP + T_DP + T_bubble
T_TP = m × (l/p) × (6 × 2bsh × 2(t-1))/(t × C_TP)
T_PP = m × (2 × 2bsh)/C_PP
T_DP = (2N)/(p × t) × (2(d-1))/(d × C_DP)
T_bubble = (p-1) × (T_comp^mb + T_PP^mb + T_TP^mb)
```
ここで、(p,t,d)は並列化戦略、Nはパラメータ数、C_TP,C_PP,C_DPは実効帯域幅利用率
#### 新規性
**包括的分析の実現**: 従来研究が特定条件下の最適化や部分的分析に限定されていたのに対し、本研究は以下の新規性を提供:
1. **多次元的実験設計**: ハードウェアプラットフォーム、並列化戦略、ネットワークプロトコル、モデルアーキテクチャなど複数要因を組み合わせた体系的分析
2. **半予測可能性の概念提示**: MoEモデルにおける動的だが収束に伴い均一化する通信パターンの特性を初めて定量化
3. **解析的推定式の開発**: PTD並列化を用いるGPTモデルの通信オーバーヘッドを数学的に予測する完全な定式化を提供
4. **プロトコル依存性の定量評価**: TCP vs RoCEv2の性能差を具体的な数値で示し、ネットワークプロトコルの重要性を実証
#### 実験設定
**データセット**:
- CV: ResNet50(24.37M)、ResNet101(42.49M)、VGG16(131.95M)
- NLP: Bert-base(104.44M)、Bert-large(319.64M)、GPT(1.5B〜3B)
- MoE: GPT-based MoE(125M、350M、760M)
**評価指標**:
- **通信パターン**: 予測可能性、規則性、非均一ファクター
- **通信オーバーヘッド**: 通信時間比率、実効帯域幅利用率、スケーリングファクター
- **解析モデル精度**: 推定値と実測値の比較による約90%の精度達成
**実験環境**:
- RTX3090(24GB)、V100(32GB)各種構成
- Mellanox ConnectX-5 100Gbps RDMA NIC
- PyTorch DDP、Microsoft DeepSpeed framework使用
#### 実験結果
**通信パターンに関する発見**:
1. **密に活性化されたモデル**: ResNet、VGG、BERT、GPTでは通信マトリックスと通信量の両方が完全に予測可能
2. **MoEモデル**: 初期は非均一(非均一ファクター0.4)だが、100イテレーション後には0.1以下まで改善し半予測可能性を実証
3. **並列化マッピング影響**: DeepSpeedのデフォルトマッピングと独自マッピングで通信パターンが大幅に変化
**通信オーバーヘッドの定量結果**:
1. **プロトコル効果**: RoCEv2はTCPと比較してVGG16で通信時間50%削減、GPT-3Bで PP通信60%、DP通信37%削減
2. **ハードウェア性能**: V100-NVLinkがRTX3090と比較して3.7倍、V100-PCIeと比較して2.2倍の高スループット達成
3. **スケーリング特性**: 弱スケーリングにおいて通信時間増加により、32GPU時にスケーリングファクターが1未満に低下
**解析モデル検証**: 4つの実験設定(16/32 RTX3090、4/8 V100)において推定精度約90%を達成し、GPU利用率μは RTX3090で0.3、V100で0.4と実測値に基づく調整により高精度予測を実現
### Abstract
分散学習において通信は重要な役割を果たしており、その特性の徹底的な理解は将来の最適化にとって不可欠である。しかし、これまでの研究は、カスタマイズされた最適化に焦点を当てるか、通信特性に関する不完全な探求を行うかのいずれかに限定されていた。本研究では、通信の2つの重要な側面である「パターン」と「オーバーヘッド」を考慮し、広範囲の決定要因を評価して、分散学習の通信特性を体系的に分析する。特に、予測可能性などの通信パターンの特徴を広範囲に調査し、通信オーバーヘッドに対する様々な要因の影響を包括的に評価する。さらに、通信オーバーヘッドを推定する解析的定式化を開発し、予測可能性を持つモデルの数学的理解を提供してその精度を検証する。