fold-k4-from-2026-06-17-to-2026-06-18-n16

Level-4 fold of 16 log entries spanning 2026-06-17 to 2026-06-18. Dominant themes: LLM 分散学習の基盤技術系譜（GPipe→PipeDream→Megatron-LM→ZeRO→DeepSpeed→FSDP→FP8-LM→FFTrainer の 7 年間の進化）、GPU クラスタスケジューリングとネットワーク最適化、LLM 推論サービングの設計空間。 ## Child Entries | Date | Op | Title | Page | Summary (extractive) | |---|---|---|---|---| | 2026-06-18 | ingest-paper | LLM inference serving: DistServe + Taming the Titans | [[@2024__OSDI__DistServe]], [[@2025__INLG__Taming the Titans]] | PD 分離は TTFT/TPOT の二重 SLO を満たす Goodput 最適化問題として定式化。推論サービングはインスタンス・クラスタ・新興シナリオを跨ぐ階層的運用設計問題へ拡大。 | | 2026-06-18 | ingest-slides | 推論基盤のパフォーマンス検証と最適化戦略 | [[@2026__SpeakerDeck__推論基盤のパフォーマンス検証と最適化戦略]] | 同一 4 GPU 条件の PD 分離は ITL テイルを維持。Mooncake Store による KV Cache Reuse/Sharing は TTFT を最大 1.75 倍程度削減するが、読み込みコストは未解決。 | | 2026-06-17 | ingest-paper | FFTrainer | [[@2025__arXiv__FFTrainer]] | 訓練ネットワークの遊休帯域を利用したゼロオーバーヘッドチェックポイント（< 3%）と checkpoint razor（サイズ 1/10 以下圧縮）で障害復旧を数十分→数十秒に短縮。 | | 2026-06-17 | ingest-paper | Cassini | [[@2024__NSDI__Cassini]] | GPU 配置とネットワークフロースケジューリングの統合で JCT を最大 1.6 倍改善。ring-allreduce のフロー間干渉が主要ボトルネック。 | | 2026-06-17 | ingest-paper | 分散学習通信特性 | [[@2024__APNet__Understanding Communication Characteristics of Distributed Training]] | 3D 並列化で TP 内 AllReduce が帯域の 55〜85% を占有、DP はバースト性が高く、PP は帯域消費が低いが遅延に敏感。 | | 2026-06-17 | ingest-paper | PyTorch FSDP | [[@2023__VLDB__PyTorch FSDP]] | FlatParameter による通信集約と後退プリフェッチで GPT-175B 18% スループット向上、レートリミッターで T5-11B 最大 5 倍向上を産業規模で実証。 | | 2026-06-17 | ingest-paper | 選択的活性化再計算 | [[@2023__MLSys__Reducing Activation Recomputation]] | QKV 以外の活性化のみ選択的に再計算し、530B パラメータモデルで活性化メモリ 5 倍削減・再計算オーバーヘッドは完全再計算の 1/3。 | | 2026-06-17 | ingest-paper | FP8-LM | [[@2023__arXiv__FP8-LM]] | forward に FP8・backward に FP16/BF16・勾配に FP8+精度補償で GPT-175B メモリ 42% 削減・訓練 64% 高速化を BF16 同等精度で達成。 | | 2026-06-17 | ingest-paper | Megatron-LM 3D 並列 | [[@2021__SC__Efficient Large-Scale Language Model Training]] | PTD-P（パイプライン・テンソル・データの 3D 並列）で 1 兆パラメータモデルを 3072 A100 GPU・502 petaFLOP/s（MFU 52%）で訓練可能と実証。 | | 2026-06-17 | ingest-paper | ZeRO | [[@2020__SC__ZeRO]] | オプティマイザ状態・勾配・パラメータを Stage 1〜3 で段階的に分割し、モデル並列なしで 1000 億パラメータ訓練を可能にした。 | | 2026-06-17 | ingest-paper | HiveD | [[@2020__OSDI__HiveD]] | マルチテナント GPU クラスタで「共有異常」を発見し、VC + バディセル割り当てで共有安全性を数学的に保証。 | | 2026-06-17 | ingest-paper | DeepSpeed | [[@2020__KDD__DeepSpeed]] | KDD 2020 チュートリアル概要（2 ページ）。ZeRO による 100〜200 億パラメータモデルの 10 倍高速訓練と BERT 44 分事前訓練記録。 | | 2026-06-17 | ingest-paper | PipeDream | [[@2019__SOSP__PipeDream]] | 1F1B パイプラインスケジュールと重み隠蔽で GPipe 比メモリ 2 倍削減、データ並列比 VGG-16 5.3 倍高速化。 | | 2026-06-17 | ingest-paper | Megatron-LM テンソル並列 | [[@2019__arXiv__Megatron-LM]] | MLP と自己注意の行列分割による層内テンソル並列化で通信を AllReduce 2 回に抑制。83 億パラメータ・512 V100 GPU・15.1 PetaFLOPs（理論ピーク 76%）。 | | 2026-06-17 | ingest-paper | GPipe | [[@2019__NeurIPS__GPipe]] | マイクロバッチ分割と再マテリアライゼーションの組み合わせでパイプライン並列化を実用化。bubble 比率 O(K-1)/M で M 増加により無視可能に。 | | 2026-06-17 | ingest-paper | Ray | [[@2018__OSDI__Ray]] | タスク並列とアクターモデルを統合する分散フレームワーク。動的タスクグラフ・GCS・ボトムアップ分散スケジューラで 1.8 ミリ秒遅延・毎秒 100 万タスク以上を処理。 | ## Key Outcomes - GPipe(2019)→PipeDream(2019)→Megatron-LM テンソル並列(2019)→ZeRO(2020)→DeepSpeed(2020)→Megatron-LM 3D 並列(2021)→FSDP(2023)→FP8-LM(2023)→FFTrainer(2025) の 7 年間の分散学習進化系譜を一次ソースから wiki に構造化した（2026-06-17 ingest-paper 14 エントリ） - パイプライン並列は GPipe のマイクロバッチ分割（bubble 比率 O(K-1)/M）から PipeDream の 1F1B（GPipe 比メモリ 2 倍削減）へ、テンソル並列は Megatron-LM の AllReduce 2 回へ、メモリ最適化は ZeRO の Stage 1〜3 段階的分割へと、各軸が独立に発展したことを時系列で確認（2026-06-17 GPipe, PipeDream, Megatron-LM, ZeRO エントリ） - 3D 並列の集大成として PTD-P が 1 兆パラメータ・3072 A100 GPU・MFU 52% を達成し、FSDP が FlatParameter と後退プリフェッチで産業規模に展開。FP8-LM が混合精度でメモリ 42% 削減・訓練 64% 高速化を BF16 同等精度で実現（2026-06-17 SC Megatron-LM, FSDP, FP8-LM エントリ） - FFTrainer が訓練ネットワークの遊休帯域でゼロオーバーヘッドチェックポイント（< 3%）と checkpoint razor（サイズ 1/10 以下圧縮）を実現し、障害復旧を数十分→数十秒に短縮。分散学習の耐障害性が訓練効率と両立可能であることを示した（2026-06-17 FFTrainer エントリ） - GPU クラスタスケジューリングでは HiveD が「共有異常」を発見して VC + バディセル割り当てで共有安全性を保証し、Cassini が GPU 配置とネットワークフロースケジューリングの統合で JCT 1.6 倍改善を達成（2026-06-17 HiveD, Cassini エントリ） - 3D 並列化の通信特性が初めて体系的に実測され、TP 内 AllReduce が帯域の 55〜85% を占有、DP はバースト性が高く、PP は帯域消費が低いが遅延に敏感というプロファイルが明らかになった（2026-06-17 APNet 通信特性エントリ） - LLM 推論サービングでは PD 分離が TTFT/TPOT の二重 SLO を満たす Goodput 最適化問題として定式化され、実測で Mooncake Store の KV Cache Reuse が TTFT を最大 1.75 倍削減するが読み込みコストが未解決の設計課題として残ることが確認された（2026-06-18 DistServe + 推論基盤最適化エントリ） ## Cross-entry Themes - **LLM 分散学習の基盤技術系譜が 7 年間（2018〜2025）にわたり体系化された**: パイプライン並列（GPipe→PipeDream）、テンソル並列（Megatron-LM 2019）、メモリ最適化（ZeRO→DeepSpeed）、3D 並列統合（PTD-P 2021）、産業規模展開（FSDP 2023）、混合精度（FP8-LM 2023）、耐障害性（FFTrainer 2025）の各軸が一次ソースから接続された。Ray(2018) がタスク並列基盤として系譜の起点に位置する (supported by: 2026-06-17 GPipe, PipeDream, Megatron-LM 2019, ZeRO, DeepSpeed, Megatron-LM 2021, FSDP, FP8-LM, FFTrainer, Ray エントリ) - **GPU クラスタスケジューリングとネットワーク最適化が訓練効率のボトルネックとして浮上した**: HiveD の共有異常発見と VC 保証、Cassini のフロースケジューリング統合による JCT 1.6 倍改善、3D 並列化の通信特性実測（TP が帯域 55〜85% 占有）が、計算最適化だけでは不十分であることを裏付ける (supported by: 2026-06-17 HiveD, Cassini, APNet 通信特性エントリ) - **LLM 推論サービングの設計空間が訓練側と対称的に構造化された**: DistServe の PD 分離 Goodput 最適化と推論基盤実測（Mooncake Store の KV Cache Reuse で TTFT 1.75 倍削減）が、訓練側の並列化・メモリ最適化系譜と並ぶ推論最適化の設計軸を提示した (supported by: 2026-06-18 DistServe + Taming the Titans, 推論基盤最適化エントリ) ## Contradictions or Corrections - None detected. ## Child Pages - [[@2024__OSDI__DistServe - Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving]] - [[@2025__INLG__Taming the Titans - A Survey of Efficient LLM Inference Serving]] - [[@2026__SpeakerDeck__推論基盤のパフォーマンス検証と最適化戦略]] - [[@2025__arXiv__FFTrainer Fast Failover in Large Language Model Training with Almost Free State Management]] - [[@2024__NSDI__Cassini Network-Aware Job Scheduling in Machine Learning Clusters]] - [[@2024__APNet__Understanding Communication Characteristics of Distributed Training]] - [[@2023__VLDB__PyTorch FSDP Experiences on Scaling Fully Sharded Data Parallel]] - [[@2023__MLSys__Reducing Activation Recomputation in Large Transformer Models]] - [[@2023__arXiv__FP8-LM Training FP8 Large Language Models]] - [[@2021__SC__Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM]] - [[@2020__SC__ZeRO Memory Optimizations Toward Training Trillion Parameter Models]] - [[@2020__OSDI__HiveD Sharing a GPU Cluster for Deep Learning with Guarantees]] - [[@2020__KDD__DeepSpeed System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters]] - [[@2019__SOSP__PipeDream Generalized Pipeline Parallelism for DNN Training]] - [[@2019__arXiv__Megatron-LM Training Multi-Billion Parameter Language Models Using Model Parallelism]] - [[@2019__NeurIPS__GPipe Easy Scaling with Micro-Batch Pipeline Parallelism]] - [[@2018__OSDI__Ray A Distributed Framework for Emerging AI Applications]] - [[Prefill-Decode分離]] - [[DistServe]] - [[Yinmin Zhong]] - [[LLM推論]] - [[FFTrainer]] - [[Bohan Zhao]] - [[Wei Xu]] - [[耐障害LLM訓練]] - [[Cassini]] - [[Sudarsanan Rajasekaran]] - [[Manya Ghobadi]] - [[Aditya Akella]] - [[ネットワーク対応スケジューリング]] - [[GPUクラスタスケジューリング]] - [[Kai Chen (HKUST)]] - [[iSING Lab]] - [[集合通信]] - [[並列化戦略]] - [[Yanli Zhao]] - [[ZeROパラメータシャーディング]] - [[Vijay Korthikanti]] - [[選択的活性化再計算]] - [[シーケンス並列化]] - [[再マテリアライゼーション]] - [[Megatron-LM]] - [[Houwen Peng]] - [[Han Hu]] - [[混合精度訓練]] - [[LLM分散学習]] - [[Deepak Narayanan]] - [[Matei Zaharia]] - [[PTD-P]] - [[Samyam Rajbhandari]] - [[ZeROメモリ最適化]] - [[ZeROオプティマイザ]] - [[DeepSpeed]] - [[HiveD]] - [[Hanyu Zhao]] - [[OpenPAI]] - [[共有異常]] - [[Virtual Private Cluster]] - [[Jeff Rasley]] - [[Yuxiong He]] - [[PipeDream]] - [[パイプライン並列化]] - [[Mohammad Shoeybi]] - [[テンソル並列]] - [[GPipe]] - [[Yanping Huang]] - [[Quoc V. Le]] - [[Ray]] - [[Philipp Moritz]] - [[タスク並列フレームワーク]] - [[動的タスクグラフ]] - [[Ion Stoica]] - [[University of California, Berkeley]] - [[サービスレベル目標]] - [[道下幹也]] - [[SAKURA Internet]] - [[高火力 PHY]] - [[vLLM]] - [[LMCache]] - [[Mooncake]] - [[チェックポイント]] - [[Peking University]] - [[Xin Jin]] - [[Hao Zhang]] - [[Bryan Catanzaro]] ## Related - [[DragonScale Memory]] - fold-operator spec - [[log]] - source entries - [[index]] - vault catalog