MegaScale - yuuk1's Digital Garden

# MegaScale [[ByteDance]] と [[Peking University]] が開発した、10,000 を超える GPU 規模で LLM を訓練する本番システム。[[Megatron-LM]] を基盤に 3D parallelism を拡張し、アルゴリズムとシステムの協調設計、および深いオブザーバビリティの 2 原則でフルスタックな最適化を行う。175B モデルを 12,288 GPU 上で 55.2% MFU(Megatron-LM 比 1.34×)で訓練する。(Source: [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) 特徴: - 各並列化次元のパターンに応じた計算と通信のオーバーラップ(§3.2)。 - 自動障害検知・復旧を行う堅牢な訓練フレームワークと、CUDA event monitor・3D parallel 可視化等の診断ツール群(§4, §5)。 - 一部コンポーネントを veScale(github.com/volcengine/veScale)として OSS 化予定。 ByteDance 内では後継的位置づけの堅牢な訓練インフラ [[ByteRobust]]([[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]], SOSP 2025)が登場し、MegaScale の RDMA 異常検知止まりだった障害対応を障害マシンの自動隔離と過剰排除へと発展させている。(Source: [[@2025__SOSP__Robust LLM Training Infrastructure at ByteDance]]) 関連研究として、10万 GPU 超で MoE の AllToAll 通信を最適化する Meta の [[NCCLX]]([[@2025__arXiv__Collective Communication for 100k+ GPUs]])がある。MegaScale が計算と通信のオーバーラップで MFU を高めたのに対し、NCCLX はゼロコピー [[CTran]] と GPU 常駐コレクティブで MoE 推論の AllToAll レイテンシ削減に注力する点が対照的である。 ## 関連 - ソース: [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[@2025__arXiv__Collective Communication for 100k+ GPUs]] - 概念: [[LLM分散学習]] / [[並列化戦略]] - エンティティ: [[ByteDance]] / [[Megatron-LM]] / [[Peking University]] / [[NCCLX]]