# PTD-P
## 定義
PTD-P (Pipeline + Tensor + Data Parallelism) は、パイプライン並列・テンソル並列・データ並列の 3 種類を組み合わせて LLM を数千 GPU で訓練するための手法体系。**3D 並列化** とも呼ばれる。Narayanan ら(SC 2021)が [[Megatron-LM]] フレームワークに実装し提案した。
各次元の役割と通信コスト:
| 並列次元 | 配置 | 通信方式 | 一般原則 |
|---|---|---|---|
| テンソル並列 (TP) | **ノード内** (NVLink) | AllReduce(フォワード/バックワードで計 4 回/層) | t ≤ ノード内 GPU 数 (典型 8) |
| パイプライン並列 (PP) | **ノード間** (InfiniBand) | 点対点(アクティベーション bsh のみ) | モデルが 1 GPU に収まらない場合に使用 |
| データ並列 (DP) | 任意 | AllReduce (バッチ単位で低頻度) | 残り全リソースを割り当て |
**配置の基本式**: p × t × d = n (各次元の次数の積 = GPU 総数)
## インターリーブドパイプラインスケジュール
従来のデフォルト 1F1B スケジュールのバブル比率:
$\text{バブル比率} = \frac{p-1}{m}$
インターリーブドスケジュール(本論文の新提案):
各デバイスが v 個のモデルチャンク(非連続なレイヤー群)を担当することで:
$\text{バブル比率} = \frac{1}{v} \cdot \frac{p-1}{m}$
代償: 通信量が v 倍増加。スキャッター・ギャザー最適化で補完。
## スキャッター・ギャザー通信最適化
テンソル並列と組み合わせると、連続する PP ステージ間でテンソルが t 個の TP ランクに冗長に送信される。これを:
- 送信側: テンソルを t チャンクに分割し各ランクが自身の IB カードで 1/t を送信(スキャッター)。
- 受信側: NVLink 上の AllGather で元のテンソルを再構成(ギャザー)。
結果: IB 通信量を 1/t に削減 (t=8 では 8 分の 1)。これによりインターリーブドスケジュールの通信増加を緩和。
## 横断的知見
- **PTD-P の配置原則が後続の大規模システムで追認されている**: MegaScale([[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]])は 175B/530B で TP=8(ノード内)/PP=8-35(ノード間)を採用し、PTD-P と同じ通信局所性原則を踏襲する。SAKURAONE([[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]])でも TP はノード内に閉じ、PP はノード間の通信として実測される。(Source: [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]], [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]])
- **インターリーブドスケジュールは MegaScale で LAMB とともに bubble を 87.5% 削減**: PTD-P 論文が提案したインターリーブドスケジュールを MegaScale は保持しつつ、LAMB オプティマイザによるバッチサイズ 4 倍化を組み合わせて bubble を 87.5% 削減した。これは「スケジューリング」と「オプティマイザ設計」の協調という PTD-P では示されなかった経路。(Source: [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]])
- **DeepSeek-V3 の DualPipe は PTD-P の PP をテンソル並列不要で置換する代替進化**: PTD-P が「TP ノード内 + PP ノード間」を組み合わせるのに対し、DualPipe([[@2024__arXiv__DeepSeek-V3 Technical Report]])は双方向パイプラインにより通信を計算中に完全隠蔽し TP を不要化する。異なる設計哲学の比較点。(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]])
- **Kimi K2 は DualPipe を採用せず PTD-P 型インターリーブド 1F1B を選択**: 運用複雑性と障害復旧容易性を理由に DualPipe を不採用とし、PTD-P の設計方針が産業的な保守性評価でも採用された。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]])
## 未解決の問い
- スキャッター・ギャザー最適化と現代の通信オーバーラップ技術(MegaScale §3.2、NCCLX)を組み合わせると、インターリーブドスケジュールの通信増加は完全に隠蔽できるか。
- v (チャンク数)の最適値は、バブル削減と通信増加のトレードオフとして解析的に決定できるか、それともモデル・ハードウェア依存の実験的決定が必要か。
- 非均質なモデル(MoE、異なるレイヤー型の混在)に対して PTD-P の TP/PP 分割はどのように拡張されるか。
## 関連
- ソース: [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] / [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]] / [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]
- 概念: [[並列化戦略]] / [[LLM分散学習]] / [[集合通信]] / [[DualPipe]]
- エンティティ: [[Megatron-LM]] / [[Deepak Narayanan]] / [[NVIDIA]] / [[Stanford University]] / [[MegaScale]]
- 関連 MOC: [[分散深層学習 - MOC]]
## 出典
- [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]](§1-5: PTD-P 提案、インターリーブドスケジュール、スキャッター・ギャザー最適化、1T パラメータ 3072 GPU 502 PF/s MFU 52%)