DeepSpeed - yuuk1's Digital Garden

# DeepSpeed [[Microsoft]] が開発した、メモリ最適化(ZeRO)と 3D parallelism を実装する LLM 訓練の基盤ライブラリ。2020 年 2 月にオープンソース公開。(Source: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]]) - GPUPerf は [[GPT-NeoX]] を通じて DeepSpeed + [[Megatron-LM]] の統合構成を性能モデリングのオペレータ分解対象とする。DeepSpeed-ZeRO のように計算と通信がオーバーラップしても、各ステップ末尾に DP 集団通信のセグメントで終わるという時間パターンは、後述の診断系でも手がかりになる。 - [[Aegis]](NSDI 2025)は、主流フレームワーク([[Megatron-LM]]・DeepSpeed)では CCL が独立差し替え可能なモジュールである点を利用し、顧客モデルコードを改変せず CCL を差し替えて診断情報を取る。DeepSpeed はその CCL 差し替えの代表例として挙がる。(Source: [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]]) - [[XPUTimer]](Flare)も DeepSpeed を含む 4 バックエンドを非侵入計装の対象とする。 - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は、DeepSpeed ZeRO の性能を batch size・gradient accumulation・通信プリミティブの組み合わせとして実測する。論文執筆時点の既定 ZeRO Stage 2 は、DeepSpeed 論文上の説明と異なり reduce-scatter ではなく all-reduce で勾配集約しており、`reduce_scatter=true` だけでなく `use_multi_rank_bucket_allreduce=false` を設定する必要があると指摘する。(Source: [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]]) - [[@2020__KDD__DeepSpeed System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters]](KDD 2020 チュートリアル概要): DeepSpeed の初出。ZeRO が当時最良比 3〜5 倍スループット、BERT 1024×V100 で 44 分(従来 67 分)、単一 V100 で 64 テラフロップス(ピークの 50% 超)。[[Jeff Rasley]] ら 4 名(Microsoft)が発表。172 億パラメータの Turing-NLG を実現した技術的基盤であることを宣言。 - [[@2020__SC__ZeRO Memory Optimizations Toward Training Trillion Parameter Models]](SC 2020 原論文): [[Samyam Rajbhandari]]・[[Yuxiong He]] ほかによる ZeRO の設計詳細。ZeRO-DP の 3 段階分割(Stage 1〜3)と ZeRO-R(Pa/CB/MD)の理論・実装・評価。400 V100 GPU で 100B パラメータを 15 ペタフロップスで訓練し、Turing-NLG(17B パラメータ、Webtext-103 ペルプレキシティ 10.21)の訓練を実現。これが DeepSpeed の中核技術として搭載された原典論文。 ## 関連 - ソース: [[@2020__SC__ZeRO Memory Optimizations Toward Training Trillion Parameter Models]] / [[@2020__KDD__DeepSpeed System Optimizations Enable Training Deep Learning Models with Over 100 Billion Parameters]] / [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] / [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] / [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] - 開発機関: [[Microsoft]] - 関連実装: [[GPT-NeoX]] / [[Megatron-LM]] - 概念: [[LLM分散学習]] / [[並列化戦略]] / [[集合通信]] / [[ZeROメモリ最適化]]