# 並列化戦略 ## 定義 並列化戦略は、単一デバイスに収まらない LLM の計算・メモリ・通信を複数 GPU/accelerator に分割する方式の総称。[[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] §4 は 3 系統に大別する:(1)**Hybrid Parallelism**——複数の手作業並列化次元を組み合わせる方式で、data + tensor + pipeline の組は **3D parallelism** とも呼ぶ、(2)**Auto Parallelism**——膨大な分割選択肢から最適戦略を自動決定、(3)**Heterogeneous Parallelism**——異種ハードウェア・異種モデル(RLHF 等)向け。data/model/sequence parallelism は SPMD(Single Program Multiple Data)を、pipeline parallelism 等は MPMD を採るのが基本。 主要な並列化次元(Hybrid の構成要素): - **Data Parallelism**: 入力 batch を分割し各デバイスがモデル複製で処理、勾配を collective communication で集約。sharding factor F でメモリ↔通信のトレードオフを制御(F=1:全複製 PyTorch-DDP/Horovod、F=W:full sharding ZeRO-3/FSDP)。 - **Tensor Parallelism**(intra-layer): 層のパラメータテンソルを分割(Megatron-LM の 1-D、Optimus の 2-D、Tesseract の 2.5-D、3-D)。中間 activation を通信するため高帯域が必要で node 内利用が一般的。 - **Pipeline Parallelism**(inter-layer): 層を stage に分割し GPU 集合へマップ。課題は **pipeline bubble**(GPipe の fill-drain、PipeDream の 1F1B、Zero Bubble 等のスケジューリングで削減)と **memory imbalance**(BPipe/Chimera/V-Shape 等で解消)。 - **Sequence Parallelism**: 長 context 対応。入力を sequence 次元で分割(Megatron-SP)。attention は ring ベース(Ring Self-Attention/DistFlashAttn/Striped Attention)や head 分割(DeepSpeed-Ulysses)で分散。 - **Expert Parallelism**: → [[Mixture-of-Experts]]。 ## 横断的知見 - **taxonomy(サーベイ) vs 本番システムの具体構成(MegaScale)**: [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] §4 が data/tensor/pipeline/sequence の 4 次元を Hybrid Parallelism として体系化するのに対し、[[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] はその 4 次元すべてを実際に組み合わせた本番構成(175B で TP=8/PP=8、530B で TP=8/PP=35、残りを DP)を開示する。サーベイが「TP は AllReduce を node 内、DP/PP は node 間」と述べる通信局所性を、MegaScale も同じ理由で TP を単一ノード内に閉じ、DP group を PP より優先して cross-minipod 通信を緩和する(§2 末尾)——taxonomy の設計原則が本番でそのまま採用されている。(Source: [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]], [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) - **pipeline bubble 削減はスケジューリングだけでなく batch size でも効く**: サーベイ §4 は pipeline bubble 削減を GPipe→1F1B→Zero Bubble の **スケジューリング** 改良として整理するが、MegaScale は interleaved 1F1B を保ったまま LAMB optimizer で batch size を 4× にし、bubble を 87.5% 削減する(§3.1)。並列化スケジュールと optimizer 設計(=algorithm 側)の co-design という、taxonomy の並列化軸単独では見えない削減経路を示す。(Source: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]], [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]]) - **通信オーバーラップは並列化次元ごとに固有設計が要る**: MegaScale は DP(all-gather の prefetch)・TP/SP(FFN path の Linear と fuse し GEMM を chunk 化)・PP(send/receive の分離)で別々のオーバーラップ技術を実装し、ablation で TP/PP/DP overlap が累計 +6.2% MFU と最大寄与(§3.2, Table 3)。並列化を「分割方式」として論じるサーベイ taxonomy に対し、各次元の通信パターンに固有の隠蔽設計が効率を決めるという実装視点を補う。(Source: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) - **同じ GPT-3 175B でも 3D 構成の配分は組織で異なるが、通信局所性原則は共通**: [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] が 175B で TP=8/PP=8 を採るのに対し、[[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] は GPT-3 175B で PP=16 を厚く取り、ノード数に応じ TP=4→8・DP=4→8→6・VP=6 を可変にする(§6.6 Table 9)。配分は異なるが、SAKURAONE の PyTorch Profiler は PP の SendRecv が NCCL 時間の 91.2% を占め TP collective は node 内 NVLink に留まる(Table 10)と実測し、サーベイ/MegaScale の「TP を node 内、DP/PP を node 間」という通信局所性原則が別組織・別 interconnect(open Ethernet)でも成立することを裏付ける。(Source: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]], [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) - **PP を厚くすると cross-pod topology が通信比率に直接効く**: SAKURAONE は 64 ノードで 2 pod を spine 経由でまたぐと、communication share が 16.4%→19.3%、comm-comp overlap が 72.3%→67.2% に悪化し MFU の頭打ち(96 ノードで 35.9% へ低下)を招く(§6.6 Table 10)。並列化構成(PP=16)と物理 topology(rail-optimized leaf–spine、§4.2/[[オープンネットワーキング]])の co-design が、taxonomy の並列化軸単独では見えない効率制約を与える。(Source: [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) ## 未解決の問い - Auto Parallelism(Alpa の inter/intra-operator 2 階層、FlexFlow の SOAP 探索空間など)は、handcrafted な 3D parallelism をどこまで置換できるか。探索コストと得られる戦略の質のトレードオフは。 - 並列化次元ごとに通信パターンが異なる(TP は AllReduce を node 内、DP/PP は node 間)。この通信局所性を前提にした rail-optimized topology(§7 冒頭・§3.2)は、どの並列化構成で最も効くか。 - sequence parallelism の各手法(ring 系 vs Ulysses 系)は、context 長・head 数・帯域のどの領域で優位が入れ替わるか。LoongTrain/USP のような統合手法が一般解になるか。 - handcrafted な 3D parallelism(MegaScale)が達成する MFU を、Auto Parallelism は同規模(12,288 GPU)で上回れるか。MegaScale は探索を使わず固定構成で 55.2% MFU を出しており、auto 化の費用対効果の実証が要る。 - PP を厚く取る構成(SAKURAONE の PP=16)は cross-pod 通信に敏感。rail-optimized topology・pod 分割と並列化配分をどう co-design すれば、ノード増(96)での MFU 低下を抑えられるか。SAKURAONE は 96 ノードのプロファイリングを future work とし精緻な帰属を残している(§6.6)。 ## 関連 - ソース: [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] / [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] - 概念: [[LLM分散学習]] / [[Mixture-of-Experts]] / [[オープンネットワーキング]] / [[GPUクラスタ運用]] - エンティティ: [[Shanghai AI Laboratory]] / [[MegaScale]] / [[Megatron-LM]] / [[SAKURAONE]] - 関連 MOC: [[分散深層学習 - MOC]] / [[HPC - MOC]] ## 出典 - [[2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]](§4 Parallelism Schemes:4.1 Hybrid / 4.2 Auto / 4.3 Heterogeneous) - [[2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]](§2 Background, §3.1 Algorithmic Optimizations, §3.2 Communication Overlapping) - [[2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]](§6.6 MLPerf Training:Table 9 並列化構成 / Table 10 通信プロファイル)