# DeepSpeed [[Microsoft]] が開発した、メモリ最適化(ZeRO)と 3D parallelism を実装する LLM 訓練の基盤ライブラリ。(Source: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]]) - GPUPerf は [[GPT-NeoX]] を通じて DeepSpeed + [[Megatron-LM]] の統合構成を性能モデリングのオペレータ分解対象とする。DeepSpeed-ZeRO のように計算と通信がオーバーラップしても、各ステップ末尾に DP 集団通信のセグメントで終わるという時間パターンは、後述の診断系でも手がかりになる。 - [[Aegis]](NSDI 2025)は、主流フレームワーク([[Megatron-LM]]・DeepSpeed)では CCL が独立差し替え可能なモジュールである点を利用し、顧客モデルコードを改変せず CCL を差し替えて診断情報を取る。DeepSpeed はその CCL 差し替えの代表例として挙がる。(Source: [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]]) - [[XPUTimer]](Flare)も DeepSpeed を含む 4 バックエンドを非侵入計装の対象とする。 - [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] は、DeepSpeed ZeRO の性能を batch size・gradient accumulation・通信プリミティブの組み合わせとして実測する。論文執筆時点の既定 ZeRO Stage 2 は、DeepSpeed 論文上の説明と異なり reduce-scatter ではなく all-reduce で勾配集約しており、`reduce_scatter=true` だけでなく `use_multi_rank_bucket_allreduce=false` を設定する必要があると指摘する。(Source: [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]]) ## 関連 - ソース: [[@2025__arXiv__Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM]] / [[@2025__NSDI__Evolution of Aegis - Fault Diagnosis for AI Model Training Service in Production]] / [[@2025__PMBS__Pretraining LLMs at Scale - Tuning Strategies and Performance Portability]] - 開発機関: [[Microsoft]] - 関連実装: [[GPT-NeoX]] / [[Megatron-LM]] - 概念: [[LLM分散学習]] / [[並列化戦略]] / [[集合通信]]