テンソル並列 - yuuk1's Digital Garden

# テンソル並列 ## 定義テンソル並列(tensor parallelism, TP)は、単一のレイヤー内の行列演算(GEMM)を複数の GPU/アクセラレータに分割して並行実行するモデル並列化の方式である。レイヤー間を分割するパイプライン並列と対比して「レイヤー内モデル並列(intra-layer model parallelism)」とも呼ばれる。 Megatron-LM([[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]])が提案した実装が標準的な設計として普及しており、Transformer の MLP ブロックと多頭自己注意ブロックそれぞれに固有の分割を適用する。 ### MLP ブロックの列-行分割 2 層 MLP の第一重み行列 $A$ を列方向に分割($A = [A_1, A_2]$)することで、GeLU 非線形を各 GPU が独立に適用できる。 $[Y_1, Y_2] = [\text{GeLU}(XA_1), \text{GeLU}(XA_2)]$ 第二 GEMM を行方向に分割し、出力を all-reduce することで同期する。順伝播 1 回・逆伝播 1 回の計 **2 回の all-reduce** で MLP 全体の分散実行が完結する。 ### 多頭注意ブロックのヘッド単位分割多頭注意の K/Q/V 射影 GEMM を列並列に分割し、各 GPU が担当ヘッドを独立に計算する。即時通信なしで自己注意を完遂でき、後段の出力射影 GEMM を行並列とすることで all-reduce だけで同期する。注意ブロックでも **2 回の all-reduce** で完結する。 ### 1 レイヤーあたりの通信量 Transformer の 1 レイヤーで MLP + 注意の計 **4 回の all-reduce**(順伝播 2 回・逆伝播 2 回)のみで実現する(Megatron-LM の実装)。 ## 横断的知見 - **テンソル並列はノード内高帯域を前提とする**: Megatron-LM は TP をノード内(NVLink/NVSwitch、ノード内 300 GB/秒)に限定し、8-way 並列で 77% のスケーリング効率を達成する。ノード間(IB、100 GB/秒)への拡張は通信律速になり、MegaScale・SAKURAONE・DeepSeek-V3 等の実システムも「TP はノード内」という配置原則を守っている。([[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]], [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **テンソル並列を使わずパイプライン並列で代替する設計もある**: [[DeepSeek-V3]] の DualPipe は計算と通信を完全にオーバーラップさせることでノード内高帯域 TP を不要にし、PP16 + EP64 + DP 構成でテンソル並列ゼロを実現した。通信を隠蔽できれば TP なしで大規模訓練が可能であることを示す。([[@2024__arXiv__DeepSeek-V3 Technical Report]]) - **1-D TP から多次元 TP への発展**: Megatron-LM の 1-D 分割を基礎に、後続研究は 2-D(Optimus)、2.5-D(Tesseract)、3-D テンソル並列と発展した。サーベイ [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] §4 はこれらを Hybrid Parallelism の「Tensor Parallelism」次元として体系化している。 - **TP はバックエンド移行時の重み layout 非互換を引き起こす**: FSDP→Megatron 移行時に FFN 重みの layout 変化が Tensor Core の 128B アラインメント不適合を招き FLOPS が 65.3% 低下した事例がある。TP の分割方式が物理 layout と密結合しているため、フレームワーク間の移行には注意を要する。([[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]]) - **推論(inference)では TP よりデータ並列(DP)が一般的に高スループット・高エネルギー効率を示す**: TP=2 で単一 GPU 比 12〜34% 向上、TP=4 で 32〜140% 向上するが、スケーリング効率は TP=2 で 67%・TP=4 で 60% にとどまる。データ並列は ~100% のリニアスケーリングを達成する。例外: モデル重みが GPU メモリの 80% 超を占める場合は KV キャッシュ確保のために TP が必要。([[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]]) - **AMD MI300X の大容量 VRAM (192 GB) は TP=1 運用を可能にし NVIDIA A100/H100 の TP=4 強制を回避できる**: Llama 3.3 70B を NVIDIA A100/H100 で実行するには TP=4 が必要だが、MI300X は TP=1 で同モデルを実行でき不要な all-reduce 通信を削減できる。ただし vLLM の AMD 向け実装の成熟度差がこの理論的優位を相殺している。([[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]]) - **不規則な GPU 数でのテンソル並列は、アテンションヘッドの離散粒度により FFN 層よりも深刻な不均衡を生む**: [[@2025__arXiv__FailSafe - High-performance Resilient Serving]] は、FFN 層の重み(中間次元が大きく細かく分割可能)と対照的に、アテンション層はヘッド数(通常数十)という粗い離散単位でしか分割できないと指摘する。LLaMA-3.1-70B(8 KVヘッド)を8→7 GPU の非均一 TP に落とすと、一部ランクが2ヘッド・他が1ヘッドを担当し最大2倍の計算不均衡が生じる。長コンテキストではこの不均衡が KVCache メモリ配分にも波及し、一部ランクが他の2倍のメモリを消費しうる。これは Megatron-LM の「1 レイヤー 4 all-reduce で完結する」均一分割の前提が、GPU 数が均一でない実運用(障害発生後のサービング)では崩れることを具体的に示す。(Source: [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]], [[@2025__arXiv__FailSafe - High-performance Resilient Serving]]) - **不均一 TP の不均衡は「配置の周期化」と「ヘッド単位の TP/DP ハイブリッド化」という2つの独立した機構で緩和できる**: FailSafe は Arfeen+ 2025 の Non-uniform Tensor Parallelism を土台に、(1) Cyclic KVCache Placement(層ごとにヘッド-GPU 対応をローテーションし、TPn 構成の連続 n 層平均でメモリ配分を均等化)と (2) Hybrid Attention(各 TP ワーカーに同数のヘッドを割り当て、余ったヘッドをデータ並列でリクエスト単位に処理し TP/DP を一般化)を組み合わせる。前者はメモリバウンドな decode 段階で(TP7 で 78% 改善)、後者は計算バウンドな prefill 段階で(TP7 で 25% 改善)それぞれ支配的に効く——同じ「不均一 TP」問題でも段階(prefill/decode)によって効く機構が異なる。(Source: [[@2025__arXiv__FailSafe - High-performance Resilient Serving]]) - **TP と PP は異なる種類のパイプラインバブルを生む**: TP は GPU 数不均一時のヘッド粒度不均衡(FailSafe)によってバブルが生じるのに対し、[[パイプライン並列化]] の DynaPipe が扱うバブルは GPU 数が均一でも生じる——自己回帰生成の最終ステージが担うサンプリング(logit 計算+トークン選択)という PP 特有の追加負荷が原因である。TP のバブルは「不均一な資源割当」、PP のバブルは「均一な資源割当でも生じるステージ固有タスクの偏り」に起因し、両者は異なる根本原因を持つ点で対照的である。(Source: [[@2025__arXiv__FailSafe - High-performance Resilient Serving]], [[@2025__NeurIPS__DynaPipe - Dynamic Layer Redistribution for Efficient Serving of LLMs with Pipeline Parallelism]]) - **推論での TP 通信オーバーヘッドは、NVLink+NVSHARP を使っても 9–23% 残存し、これまで見過ごされてきた RMSNorm も 4–9% を占める**: [[@2025__arXiv__TokenWeave - Efficient Compute-Communication Overlap for Distributed LLM Inference]] は、Megatron-LM の「1 レイヤー 4 all-reduce で完結する」通信構造そのものは変えず、その AllReduce と直後の RMSNorm(残差加算込み)を単一の融合カーネルに統合することで、8×H100 上でも通信+正規化を 2–8 SM だけで処理できることを示した。TP の通信量削減(不均一分割・階層化)とは異なる軸——「通信の中身(AllReduce)に隣接する演算(RMSNorm)を巻き込んで削る」という最適化が、Megatron-LM 以来固定的だった TP の通信コストにさらなる削減余地を残していたことを具体的に定量化した。(Source: [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]], [[@2025__arXiv__TokenWeave - Efficient Compute-Communication Overlap for Distributed LLM Inference]]) - **既存の compute-communication overlap 手法が大バッチ(8K+ トークン)でしか機能しない一方、TokenWeave は wave-aware なトークン分割で 1K トークンの小規模推論イテレーションでも通信隠蔽を成立させる**: FailSafe が TP の不均衡を GPU 数の非均一性(障害後の再配置)という運用側の要因から論じたのに対し、TokenWeave は GPU 数が均一な通常運用でも、低レイテンシサービングのために小さく保たれるトークン数(vLLM のデフォルトチャンクサイズ 2048)自体が通信オーバーラップの適用を妨げてきたと指摘する。両者は「TP 通信の理論的コストと実際に払われるコストの乖離」を、前者は資源配置の不均一性から、後者はワークロード粒度の小ささから、それぞれ異なる角度で埋める。(Source: [[@2025__arXiv__FailSafe - High-performance Resilient Serving]], [[@2025__arXiv__TokenWeave - Efficient Compute-Communication Overlap for Distributed LLM Inference]]) ## 未解決の問い - TP 並列度(ノード内 GPU 数)の上限を NVLink 世代のみで決まるか、それとも GEMM サイズの最小化(計算効率低下)も制約するか。Megatron-LM は 8-way を実用上の上限と示唆するが、NVLink 5th 世代(H100 NVSwitch: 900 GB/秒)ではどこまで拡大できるか。 - Megatron-LM の 1-D TP と 2-D/2.5-D/3-D TP は、モデルサイズ・GPU 数・ノード構成のどの組み合わせで優位が入れ替わるか。 - DualPipe/通信計算オーバーラップで TP を不要化する設計は、密モデル(dense)と MoE モデルで同様に成立するか。MoE では EP が TP の役割を一部代替するが、密モデルでの TP ゼロ設計は一般化できるか。 - TP の all-reduce は順伝播と逆伝播で各 2 回必要だが、sequence parallelism と組み合わせた場合(Megatron-SP)の通信量とオーバーラップ設計はどう変わるか。 - 推論での TP vs DP の最適境界はモデル重みの VRAM 比で変わる。この閾値(~80%)は GPU 世代・量子化精度・KV キャッシュサイズによりどう変動するか。 - FailSafe の Cyclic KVCache Placement・Hybrid Attention は不均一 TP の負荷分配を均すが、Megatron-LM の「1 レイヤー 4 all-reduce」という通信量の前提はどう変わるか。Hybrid Attention は TP attn と DP attn の同期を分離するが、追加の同期ポイントは通信オーバーヘッドをどれだけ増やすか。 - TokenWeave の融合 AllReduce–RMSNorm カーネルは NVSHARP/Multimem(Hopper・Blackwell 以降)前提だが、この機能を持たない GPU 世代・他ベンダー(AMD 等)での TP 通信最適化はどう代替できるか。MI300X のような大容量 VRAM で TP=1 運用に寄せる戦略([[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]])と、通信自体を融合削減する戦略は競合するのか補完するのか。 - FailSafe の不均一 TP(GPU 数が均一でない場合の負荷分散)と TokenWeave の smart-splitting(GPU 数は均一だがトークン数が小さい場合の wave 分割)は、どちらも「TP の理想的な均等分割前提が崩れる場面」を扱うが、両者を同一システムで組み合わせた場合、不均一 GPU 数 × 小トークンバッチという最悪条件での性能はどうなるか。 ## 関連 - ソース: [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]] / [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]] / [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]] / [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]] / [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]] / [[@2025__arXiv__FailSafe - High-performance Resilient Serving]] / [[@2025__NeurIPS__DynaPipe - Dynamic Layer Redistribution for Efficient Serving of LLMs with Pipeline Parallelism]] / [[@2025__arXiv__TokenWeave - Efficient Compute-Communication Overlap for Distributed LLM Inference]] - 概念: [[並列化戦略]] / [[LLM分散学習]] / [[集合通信]] / [[Mixture-of-Experts]] / [[LLM推論]] / [[AIアクセラレータ]] / [[耐障害LLMサービング]] / [[パイプライン並列化]] - エンティティ: [[Megatron-LM]] / [[Mohammad Shoeybi]] / [[NVIDIA]] / [[DeepSeek-V3]] / [[AMD]] / [[vLLM]] / [[Ramachandran Ramjee]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]](提案元。MLP 列-行分割・注意ヘッド分割・1 レイヤー 4 all-reduce・512 GPU 76% スケーリング効率・Pre-LayerNorm) - [[@2026__Vicinagearth__Efficient Training of Large Language Models on Distributed Infrastructures - A Survey]](§4 Tensor Parallelism: 1-D から 3-D への発展の体系化) - [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]](TP=8 ノード内限定・通信オーバーラップ設計・175B / 530B の本番構成) - [[@2024__arXiv__DeepSeek-V3 Technical Report]](DualPipe によるテンソル並列ゼロの設計) - [[@2025__arXiv__XPUTimer - Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale]](FSDP→Megatron 移行時の layout 非互換による FLOPS 低下の事例) - [[@2026__IPDPS__Beyond Throughput - Performance and Energy Insights of LLM Inference Across AI Accelerators]](推論での TP vs DP: DP が ~100% スケーリング・TP が最大 60% 止まり; モデルが VRAM の 80% 超で TP が有効な例外; AMD MI300X の大容量 VRAM による TP=1 運用) - [[@2025__arXiv__FailSafe - High-performance Resilient Serving]](不均一 TP のヘッド単位不均衡・Cyclic KVCache Placement・Hybrid Attention による prefill/decode 段階別の緩和効果) - [[@2025__NeurIPS__DynaPipe - Dynamic Layer Redistribution for Efficient Serving of LLMs with Pipeline Parallelism]](パイプライン並列における均一資源下でも生じるサンプリング起因バブルを対照事例として提示) - [[@2025__arXiv__TokenWeave - Efficient Compute-Communication Overlap for Distributed LLM Inference]](融合 AllReduce–RMSNorm カーネルと wave-aware smart-splitting による小トークン推論での TP 通信オーバーラップ)