## Memo
## Memo with LLM
### 論文情報
- **論文のタイトル**: The Big Send-off: High Performance Collectives on GPU-based Supercomputers
- **著者と所属**: Abhinav Bhatele(提出者)、Siddharth Singh、その他複数名(詳細所属不明、HPEやOLCFとの関連が推測される)
- **カンファレンス/ジャーナル名**: arXiv(プレプリント、まだ正式発表されていない)
- **発表年**: 2025年
### 論文概要
本論文は、GPUベースのスーパーコンピュータにおいて、大規模言語モデル(LLM)の[[分散深層学習|分散学習]]に必要な集約通信操作(all-gatherとreduce-scatter)の性能を大幅に改善する通信ライブラリPCCL(Performant Collective Communication Library)を提案している。既存のRCCLとCray-MPICHの性能限界を分析し、数千のGPUにスケールする最適化された実装を提供する。
### 詳細解説
#### 問題設定
**入力と出力**: 分散深層学習におけるall-gather操作(各GPUが持つパラメータシャードを全GPUに配布)とreduce-scatter操作(勾配を削減して各GPUに分散)を対象とする。メッセージサイズは数十MBから1GB程度の大きなデータが中心である。
- [x] **必要なデータ**: AMD MI250Xベースのスーパーコンピュータ「Frontier」とNVIDIA A100ベースの「Perlmutter」での実験データ、既存ライブラリ([[RCCL]]、Cray-MPICH、[[NCCL]])との比較データ、実際の[[2020__NeurIPS__Language Models are Few-Shot Learners|GPT-3]]スタイルのモデル学習での実測性能データが必要である。
#### 提案手法
**階層的設計**: PCCLは2レベルの階層的アルゴリズムを採用している。ノード内通信ではRCCLのリングアルゴリズムを使用し、ノード間通信では再帰的doubling/halvingアルゴリズムを実装している。
**NICトラフィックの負荷分散**: Cray-MPICHが単一NICのボトルネックに陥る問題を解決するため、各GPUを対応するNICに専用接続し、複数のNICを並行利用する設計を実装している。
**数式例**: リングアルゴリズムの通信時間は `T_ring = (p-1)α + (p-1)n/p * β` で表され、再帰的doublingでは `T_rec = log(p)α + (p-1)n/p * β` となる(pはプロセス数、αは遅延、βは帯域幅の逆数)。
#### 新規性
**既存手法の限界の特定**: Cray-MPICHのNIC利用率不足(単一NIC使用)とreduction操作のCPU実行、RCCLの大規模での性能劣化(リングアルゴリズムの線形遅延増大)を具体的に特定している。
**最適化戦略**: 従来のフラットなリングアルゴリズムに対し、階層的設計と異なるレベルでの最適アルゴリズム選択(ノード内:リング、ノード間:再帰的アルゴリズム)を組み合わせた新しいアプローチを提案している。
#### 実験設定
**使用データセット**: GPT-3スタイルのTransformerモデル(7Bと13Bパラメータ)を使用し、OpenWebTextコーパスで学習。グローバルバッチサイズ4Mトークン、シーケンス長2048で設定している。
**評価指標**: 集約通信操作の実行時間、スループット、エンドツーエンド学習時間、既存ライブラリに対する高速化倍率を計測。HIPとCUDAイベントタイマーで正確な時間測定を実施している。
#### 実験結果
**集約通信性能**: Frontier上でall-gather操作において、2048 GCDでRCCLに対し6-33倍、Cray-MPICHに対し28-70倍の高速化を達成。Perlmutter上でも同様の傾向を確認。
**エンドツーエンド性能**: ZeRO-3フレームワークを使用したGPT学習で、1024 GCD環境でRCCLに対し7Bモデルで60%、13Bモデルで40%の高速化を実現している。
論文は通信ボトルネックが深層学習の大規模化における主要課題であることを明確に示し、システムレベルの最適化によって実用的な性能向上が可能であることを実証している。ただし、特定のハードウェア環境に特化した最適化であるため、他のシステムへの汎用性については更なる検証が必要である。
## Abstract
我々は、大規模言語モデル(LLM)の大規模学習において、GPUベースのスーパーコンピュータにおける集約通信の現状を評価する。RCCLやCray-MPICHなどの既存ライブラリは、Frontierのようなシステムにおいて重大な制限を示す。Cray-MPICHはネットワークと計算資源を十分に活用せず、RCCLは深刻なスケーラビリティの問題に悩まされている。これらの課題に対処するため、分散深層学習ワークロードに特化したall-gatherとreduce-scatter操作の高度に最適化された実装を持つ通信ライブラリPCCLを導入する。PCCLは利用可能なすべてのネットワークと計算資源を最大限に活用し、数千のGPUに効率的にスケールするよう設計されている。大幅な性能向上を実現し、Frontierの2048 GCDでのall-gatherにおいてRCCLに対し6-33倍、Cray-MPICHに対し28-70倍の高速化を提供する。これらの向上は直接的にエンドツーエンド性能に反映され、大規模GPT-3スタイル学習において、7Bおよび13Bパラメータモデルに対しRCCLよりもそれぞれ最大60%および40%の高速化を提供する。