# MegaScale [[ByteDance]] と [[Peking University]] が開発した、10,000 を超える GPU 規模で LLM を訓練する本番システム。[[Megatron-LM]] を基盤に 3D parallelism を拡張し、algorithm-system co-design と in-depth observability の 2 原則で full-stack 最適化を行う。175B モデルを 12,288 GPU 上で 55.2% MFU(Megatron-LM 比 1.34×)で訓練する。(Source: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) 特徴: - 各並列化次元のパターンに応じた計算/通信オーバーラップ(§3.2)。 - 自動障害検知・復旧を行う robust training framework と、CUDA event monitor・3D parallel 可視化等の診断ツール群(§4, §5)。 - 一部コンポーネントを veScale(github.com/volcengine/veScale)として OSS 化予定。 ## 関連 - ソース: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] - 概念: [[LLM分散学習]] / [[並列化戦略]] - エンティティ: [[ByteDance]] / [[Megatron-LM]] / [[Peking University]]