LLM分散学習 - yuuk1's Digital Garden

# LLM分散学習 ## 定義 LLM分散学習は、数千億から兆規模の言語モデルを、数百から数万 GPU/AI アクセラレータ上で長時間訓練するためのシステム・運用・インフラの総体である。主要な設計軸は SER、すなわち Scalability、Efficiency、Reliability であり、技術スタックはインフラ、[[並列化戦略]]、計算/通信最適化、[[耐障害LLM訓練]] に分けられる。([[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]]) このページは親ページとして、分散学習システム全体の地図を保持する。並列化の詳細は [[並列化戦略]]、実行時監視は [[LLM学習モニタリング]]、復旧設計は [[耐障害LLM訓練]]、クラスタ運用は [[GPUクラスタ運用]]、通信プリミティブは [[集合通信]] に置く。 ## 横断的知見 - **SER は独立軸ではなくトレードオフである**: MFU を上げる通信隠蔽や巨大 batch は効率を上げるが、障害復旧・チェックポイント・運用複雑性を増やす。MegaScale、SAKURAONE、ByteDance の各システムは、同じ SER を異なる制約下で最適化している。PTD-P(SC 2021)が 1T パラメータで MFU 52% を達成したのは、正確な並列化配置とインターリーブドスケジュールの相乗によるものであり、単一軸最適化では到達できなかった。([[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]], [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]]) - **訓練クラスタ診断は AIOps と語彙を共有するが、信号源が違う**: サービス AIOps は不均質な依存グラフを使う一方、LLM 訓練では均質な並列ワーカー群から外れた GPU/ノード/通信を探す。([[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]]) - **効率は大域設計と局所チューニングの両方で動く**: MegaScale の並列化・通信オーバーラップ、SAKURAONE の open Ethernet チューニング、PMBS の ZeRO/batch/NCCL 設定探索は、同じ Efficiency 軸の異なる層である。([[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]]) - **Reliability はチェックポイントだけでなく検知・隔離・復旧時間の問題である**: 大規模化で MTTF は GPU 数にほぼ反比例し、10万 GPU 級では分単位の復旧要件になる。([[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]]) - **ネットワークは InfiniBand 専有から open Ethernet/RoCE へ設計空間が広がる**: SAKURAONE は SONiC + RoCEv2 で NVIDIA Eos 比 1.02-1.26x の time-to-train を示したが、ECN/PFC/NCCL striping のクロスレイヤ調整を要する。([[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **FP8 混合精度が端末間コスト削減の新次元を加える**: [[LLM分散学習]]の効率軸はこれまで並列化・通信隠蔽・チェックポイント設計として議論されてきたが、FP8-LM(Microsoft、2023 年)はデータ型の精度を訓練全段階(計算・ストレージ・通信)に降ろすことで BF16 比 75% 高速化・39% メモリ削減を GPT-175B で実現した。この「数値精度」軸は SER 設計の効率(E)・信頼性(R)の両方に作用する: 小 batch 時はメモリ削減が主の利益になり、大 batch 時は通信削減とスループット向上が主になる。また FP8 ZeRO によるオプティマイザ状態の 2.6 倍メモリ削減は、同 GPU 数でより長いシーケンス長や大バッチを扱う可能性を開く。([[@2023__arXiv__FP8-LM Training FP8 Large Language Models]]) - **「超大規模 vs 中規模」トレードオフの経済合理性**: [[Glenn K. Lockwood]]（元 Microsoft）の観察によると、本番訓練ランのプロファイリングデータは実務者が「中規模 GPU クラスタで中規模モデルを数時間〜数日訓練する」パターンを好むことを示す。100,000 GPU クラスタの利点は「1 ヶ月かかる訓練が 3 日で完了し障害を数時間で検知できる」ことであり、経済的価値は「速度」と「リスク低減」であって「パラメータ規模の拡大」ではないという整理が出てきた。MegaScale（10,000 GPU 超）・SAKURAONE（InfiniBand 代替）が示すシステム設計の複雑性と、この「中規模選好」傾向は、大規模化のコスト対効果についての問いを再提起する。(Source: [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]], [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) - **百万 GPU スケールではスケールアップネットワークが支配的ボトルネックになる**: [[Costin Raiciu]] らの HotNets 2024 計算では、スケールアップ 0.8 Tbps 時に露出ネットワーキング時間が Dense Transformer 40%・MoE 75% に達する。14.4 Tbps(現行 NVLink 相当)に増速すると 5%/20% に激減し、スケールアップ帯域がスケールアウト(スイッチ速度)より先に飽和する。万 GPU 規模では見えにくかった現象が百万 GPU で顕在化する設計シフトである。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **MoE は Dense Transformer より通信要求が厳格**: MoE の backward 計算が 90 ms(Dense: 265 ms)と短いため、DP 勾配交換との重なりが減り、スケールアウトが露出しやすい。スケールアウト 800 Gbps では Dense に追加改善効果がない水準でも MoE は依然 20% 露出する。1.6 Tbps まで増速して初めて 5% 未満に収まる。MoE の採用はネットワーク設計基準を引き上げる。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **東西 DC 分割は 30 ms 伝播遅延を計算で完全隠蔽できる(無損失条件)**: GPU あたり 20 Gbps 以上のワイドエリア帯域があれば、両海岸間の 30 ms 伝播遅延を forward/backward 計算時間で完全に覆い隠せる。テール損失(再送=60 ms)が発生すると隠蔽が崩れ、特に MoE で悪化する。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) - **LLM 訓練向けネットワークは 3 層 Clos から 2 層デュアルプレーンへ移行しつつある**: [[@2024__SIGCOMM__Alibaba HPN - A Data Center Network for Large Language Model Training]] は、LLM 訓練の few large elephant flows が ECMP を無力化するため、従来の 3 層 Clos が根本的に不適合であることを示した。HPN の 2 層デュアルプレーンは、レール最適化 × 非スタック型デュアル ToR × デュアルプレーン × 最適化パス選択の組み合わせで 1 Pod 内 15K GPU を収容し、DCN+ 比で訓練スループット 14.9% 向上を達成した。RDMA ハードウェアオフロードの制約から「スイッチ側複雑処理不可、ホスト側経路計算 + CCL 層負荷分散」が基本原則になっている。(Source: [[@2024__SIGCOMM__Alibaba HPN - A Data Center Network for Large Language Model Training]]) ## 未解決の問い - SER の 3 軸を、MFU・ETTR・TCO・復旧時間・運用複雑性を含む単一の設計評価へ落とせるか。 - open Ethernet は InfiniBand 代替としてどの規模まで成立し、どの時点で運用チューニングの複雑性が支配的になるか。 - 訓練クラスタの診断手法は、サービス AIOps の RCA/緩和とどの部分を共有でき、どこから専用設計が必要か。 - 大規模 MoE/長コンテキスト訓練では、並列化・チェックポイント・再現性・ロス安定化のどの制約が次の支配要因になるか。 - 100,000 GPU クラスタ（例: [[Microsoft Fairwater]]）と 10,000 GPU クラスタ（例: MegaScale）で、「訓練速度向上 × リスク低減」の便益が「未テスト新規ハードウェア投入・障害モード複雑化・24 時間体制運用コスト」のコストを上回る条件は何か。(Source: [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]]) - 百万 GPU × 複数 DC スケールでは、テンソル並列の障害ドメインがラック固定されることでスケジューリングの自由度がどれほど制限されるか。マルチプレーン・マルチレール構成との最適な組み合わせは何か。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) ## 関連 - 子 concept: [[並列化戦略]] / [[LLM学習モニタリング]] / [[耐障害LLM訓練]] / [[GPUクラスタ運用]] / [[集合通信]] / [[チェックポイント]] / [[ストラグラー]] / [[オープンネットワーキング]] / [[性能可搬性]] / [[PTD-P]] / [[混合精度訓練]] / [[AIデータセンタートポロジ]] - 隣接 concept: [[Mixture-of-Experts]] / [[LLMスケーリング則]] / [[GPUレジリエンス]] / [[RDMAネットワーク監視]] / [[データセンター輻輳制御]] - ソース: [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] / [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[@2024__SIGCOMM__Alibaba HPN - A Data Center Network for Large Language Model Training]] / [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] / [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] / [[@2023__arXiv__FP8-LM Training FP8 Large Language Models]] / [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] ## 出典 - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] - [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] - [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] - [[@2025__HPCA__Revisiting Reliability in Large-Scale Machine Learning Research Clusters]] - [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] - [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]](PTD-P の提案・1T パラメータ 3072 GPU 502 PF/s MFU 52% の実証・インターリーブドスケジュール・スキャッター・ギャザー最適化) - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]](百万 GPU スケールにおけるネットワーキング課題体系化・MoE vs Dense の通信要求比較) - [[@2024__SIGCOMM__Alibaba HPN - A Data Center Network for Large Language Model Training]](LLM 訓練専用 DC ネットワーク設計・2 層デュアルプレーン・非スタック型デュアル ToR・レール最適化・14.9% 訓練スループット向上)