PTD-P - yuuk1's Digital Garden

# PTD-P ## 定義 PTD-P (Pipeline + Tensor + Data Parallelism) は、パイプライン並列・テンソル並列・データ並列の 3 種類を組み合わせて LLM を数千 GPU で訓練するための手法体系。**3D 並列化** とも呼ばれる。Narayanan ら(SC 2021)が [[Megatron-LM]] フレームワークに実装し提案した。各次元の役割と通信コスト: | 並列次元 | 配置 | 通信方式 | 一般原則 | |---|---|---|---| | テンソル並列 (TP) | **ノード内** (NVLink) | AllReduce(フォワード/バックワードで計 4 回/層) | t ≤ ノード内 GPU 数 (典型 8) | | パイプライン並列 (PP) | **ノード間** (InfiniBand) | 点対点(アクティベーション bsh のみ) | モデルが 1 GPU に収まらない場合に使用 | | データ並列 (DP) | 任意 | AllReduce (バッチ単位で低頻度) | 残り全リソースを割り当て | **配置の基本式**: p × t × d = n (各次元の次数の積 = GPU 総数) ## インターリーブドパイプラインスケジュール従来のデフォルト 1F1B スケジュールのバブル比率: $\text{バブル比率} = \frac{p-1}{m}$ インターリーブドスケジュール(本論文の新提案): 各デバイスが v 個のモデルチャンク(非連続なレイヤー群)を担当することで: $\text{バブル比率} = \frac{1}{v} \cdot \frac{p-1}{m}$ 代償: 通信量が v 倍増加。スキャッター・ギャザー最適化で補完。 ## スキャッター・ギャザー通信最適化テンソル並列と組み合わせると、連続する PP ステージ間でテンソルが t 個の TP ランクに冗長に送信される。これを: - 送信側: テンソルを t チャンクに分割し各ランクが自身の IB カードで 1/t を送信(スキャッター)。 - 受信側: NVLink 上の AllGather で元のテンソルを再構成(ギャザー)。結果: IB 通信量を 1/t に削減 (t=8 では 8 分の 1)。これによりインターリーブドスケジュールの通信増加を緩和。 ## 横断的知見 - **PTD-P の配置原則が後続の大規模システムで追認されている**: MegaScale([[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]])は 175B/530B で TP=8(ノード内)/PP=8-35(ノード間)を採用し、PTD-P と同じ通信局所性原則を踏襲する。SAKURAONE([[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]])でも TP はノード内に閉じ、PP はノード間の通信として実測される。(Source: [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]], [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]], [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]]) - **インターリーブドスケジュールは MegaScale で LAMB とともに bubble を 87.5% 削減**: PTD-P 論文が提案したインターリーブドスケジュールを MegaScale は保持しつつ、LAMB オプティマイザによるバッチサイズ 4 倍化を組み合わせて bubble を 87.5% 削減した。これは「スケジューリング」と「オプティマイザ設計」の協調という PTD-P では示されなかった経路。(Source: [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]]) - **DeepSeek-V3 の DualPipe は PTD-P の PP をテンソル並列不要で置換する代替進化**: PTD-P が「TP ノード内 + PP ノード間」を組み合わせるのに対し、DualPipe([[@2024__arXiv__DeepSeek-V3 Technical Report]])は双方向パイプラインにより通信を計算中に完全隠蔽し TP を不要化する。異なる設計哲学の比較点。(Source: [[@2024__arXiv__DeepSeek-V3 Technical Report]]) - **Kimi K2 は DualPipe を採用せず PTD-P 型インターリーブド 1F1B を選択**: 運用複雑性と障害復旧容易性を理由に DualPipe を不採用とし、PTD-P の設計方針が産業的な保守性評価でも採用された。(Source: [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]) ## 未解決の問い - スキャッター・ギャザー最適化と現代の通信オーバーラップ技術(MegaScale §3.2、NCCLX)を組み合わせると、インターリーブドスケジュールの通信増加は完全に隠蔽できるか。 - v (チャンク数)の最適値は、バブル削減と通信増加のトレードオフとして解析的に決定できるか、それともモデル・ハードウェア依存の実験的決定が必要か。 - 非均質なモデル(MoE、異なるレイヤー型の混在)に対して PTD-P の TP/PP 分割はどのように拡張されるか。 ## 関連 - ソース: [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] / [[@2024__NSDI__MegaScale - Scaling Large Language Model Training to More Than 10,000 GPUs]] / [[@2026__MLSys2026__SAKURAONE - An Open Ethernet-Based AI HPC System]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]] / [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]] - 概念: [[並列化戦略]] / [[LLM分散学習]] / [[集合通信]] / [[DualPipe]] - エンティティ: [[Megatron-LM]] / [[Deepak Narayanan]] / [[NVIDIA]] / [[Stanford University]] / [[MegaScale]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]](§1-5: PTD-P 提案、インターリーブドスケジュール、スキャッター・ギャザー最適化、1T パラメータ 3072 GPU 502 PF/s MFU 52%)