2025__arXiv__MegaScale-MoE Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production

## Memo ![[Pasted image 20250916212759.png]] ![[Pasted image 20250916212845.png]] ## Memo with LLM ### 論文情報 - **論文のタイトル**: MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production - **著者と所属**: Chao Jin（北京大学・ByteDance Seed）他18名、ByteDance Seed & 北京大学 - **カンファレンス/ジャーナル名**: arXiv プレプリント - **発表年**: 2025年（初回投稿：2025年5月16日、改訂版：2025年5月19日） ### 論文概要本論文では、大規模Mixture-of-Experts（MoE）モデルの効率的な分散学習を実現するプロダクションシステム「MegaScale-MoE」を提案している。1,440台のNVIDIA Hopper GPUを用いた352B MoEモデルの学習において、Megatron-LMと比較して1.88倍の効率向上（1.41M tokens/s）を達成した。 ### 詳細解説 #### 問題設定 **入力**: 大規模MoEモデル（数百億パラメータ）、分散GPU環境（数千台規模）、学習データ **出力**: 効率的な分散学習システムによる高速モデル学習 **必要なデータ**: MoEアーキテクチャを持つ言語モデル、大規模並列計算環境現行のMoE学習システムでは、モデル規模の拡大とハードウェアの進化に伴い、通信オーバーヘッドが学習効率のボトルネックとなっている。特に、テンソル並列処理をマルチノード環境に拡張した場合、通信オーバーヘッドが50%を超えることが観測されており、効率的な通信最適化が急務となっている。 #### 提案手法 MegaScale-MoEは通信効率を改善するため、以下の3つの主要アプローチを採用している： **1. カスタマイズされた並列処理戦略** - 各MoEレイヤーのAttentionモジュールとFFNモジュールに対して、通信量を最小化する最適な並列処理戦略を選択 - [[Sequence Parallelism]]（SP）をAttentionに、[[Expert Parallelism]]（EP）をFFNに適用 **2. 包括的な通信-計算重複処理** - オペレータレベルでの通信と計算の完全な重複実行 - inter-operatorおよびintra-operatorレベルでの効率的な重複処理 **3. 通信圧縮技術** - 低精度通信パターンを調整した通信圧縮の適用 - FP8形式での通信による帯域幅使用量の削減 #### 新規性従来の[[Megatron|Megatron-LM]]やDeepSpeed-MoEなどの既存フレームワークと比較して、MegaScale-MoEの新規性は以下の点にある： - **専用並列処理戦略**: AttentionとFFNモジュールに対する個別最適化された並列処理戦略 - **全方位通信重複**: 従来の部分的な重複処理を超えた、システム全体での包括的な通信-計算重複 - **プロダクション対応**: 実際の大規模運用環境での安定性と効率性を重視した設計 #### 実験設定 **使用データセット**: 352Bパラメータの大規模MoEモデル **評価指標**: - 学習スループット（tokens/s） - Model FLOPs Utilization（[[MFU]]） - 通信オーバーヘッド比率 **実験環境**: 1,440台のNVIDIA Hopper GPU、シーケンス長8,192、語彙サイズ65,536 #### 実験結果 **主要な性能指標**: - **学習スループット**: 1.41M tokens/sを達成（Megatron-LMの1.88倍） - **スケーラビリティ**: 1,440 GPUでの線形スケーリングを実現 - **通信効率**: 従来手法と比較して大幅な通信オーバーヘッドの削減実験では、MegaScale-MoEがMegatron-LMベースラインを一貫して上回る性能を示し、特に大規模環境での効率性において顕著な改善を達成している。また、システムの安定性も向上し、長時間の学習ジョブにおいても高い効率を維持することが確認された。 ## Abstract 我々は、大規模Mixture-of-Experts（MoE）モデルの効率的な学習に特化したプロダクションシステムであるMegaScale-MoEを提案する。MoEは、大規模言語モデル（LLM）を前例のない規模まで拡張し、モデル性能を向上させる有望なアーキテクチャとして注目されている。しかし、既存のMoE学習システムは学習効率の低下を経験しており、この問題はMoEモデルの規模拡大とハードウェアの継続的な進化によって悪化している。MoE学習の向上における効率的通信の重要な役割を認識し、MegaScale-MoEは各MoEレイヤーのアテンションとFFNに対して通信効率の良い並列処理戦略をカスタマイズし、オペレータ間およびオペレータ内レベルの両方で通信と計算を重複させる包括的なアプローチを採用している。さらに、MegaScale-MoEは、低精度への調整された通信パターンを持つ通信圧縮を適用し、学習効率をさらに向上させている。1,440台のNVIDIA Hopper GPUで352B MoEモデルを学習する際、MegaScale-MoEは1.41M tokens/sの学習スループットを達成し、Megatron-LMと比較して1.88倍の効率改善を実現している。我々はMoE学習の高速化における運用経験を共有し、システム設計に関する洞察を提供することで、この研究がMoEシステムの将来の研究を促進することを期待している。