2025__OSDI__Understanding Stragglers in Large Model Training Using What-if Analysis

## Memo ## Memo with LLM ### 論文情報 **タイトル**: Understanding Stragglers in Large Model Training Using What-if Analysis **著者と所属**: - Jinkun Lin (New York University) - Ziheng Jiang, Zuquan Song, Sida Zhao, Menghan Yu (ByteDance Seed) - Zhanghan Wang (New York University) - Chenyuan Wang (ByteDance Seed) - Zuocheng Shi (Zhejiang University) - Xiang Shi (ByteDance) - Wei Jia, Zherui Liu, Shuguang Wang, Haibin Lin, Xin Liu (ByteDance Seed) - Aurojit Panda, Jinyang Li (New York University) **カンファレンス名**: 19th USENIX Symposium on Operating Systems Design and Implementation (OSDI 2025) **発表年**: 2025年 ### 論文概要本論文では、数千台のGPUを必要とする大規模言語モデル（LLM）訓練における「ストラグラー（遅延ワーカー）」問題について、ByteDanceのLLM訓練クラスターから5ヶ月間収集したトレースデータを用いて包括的な分析を行った研究である。What-if分析という手法を用いてストラグラーが存在しない仮想的なシナリオをシミュレートし、実際の訓練時間と比較することで、ストラグラーの影響を定量的に評価している。 ### 詳細解説 #### 問題設定 **入力と出力**: 大規模LLM訓練ジョブのトレースデータ（2024年1月から5月にかけて収集された3079ジョブ、最低128GPU使用）が入力。出力は、ストラグラーによる性能低下の定量化、パターン分析、根本原因の特定である。 **必要なデータ**: ByteDanceのMegatron-LMベースの訓練システムから、NDTimelineという独自プロファイリングツールを用いて収集された運用データ。各オペレーションの開始・終了時刻、訓練ステップID、マイクロバッチID、パイプライン並列（PP）ランク、データ並列（DP）ランクなどのメタデータが含まれる。 #### 提案手法 **What-if分析の核心手法**: 1. **理想化されたオペレーション持続時間の推定**: 同種のオペレーションは、ストラグラーが存在しない理想的な状況では同じ実行時間を持つべきという前提に基づき、計算オペレーションには平均値、通信オペレーションには中央値を使用して理想的な実行時間を算出する。 2. **依存関係モデルの抽出**: Megatron-LMの並列戦略に基づいて、各ワーカーが複数のストリームを持ち、ストリーム内では順次実行、ストリーム間では依存関係が満たされれば並行実行するモデルを構築する。 3. **代替タイムラインのシミュレーション**: 依存関係と理想化された実行時間を用いて、ストラグラーが存在しない仮想的な実行タイムラインをシミュレートし、実際の実行時間と比較する。 **数式例**: スループット低下率は以下で定義される： - Slowdown = (T_original - T_ideal) / T_ideal ここで、T_originalは実際のジョブ完了時間、T_idealは理想的なジョブ完了時間である。 #### 新規性 **先行研究との比較**: 従来のMapReduceなどのビッグデータフレームワークにおけるストラグラー研究とは異なり、本研究はLLM訓練特有の複雑な並列化戦略（データ並列、パイプライン並列、テンソル並列、コンテキスト並列の組み合わせ）における問題を分析している点が新しい。また、FALCONなどの先行研究では手動分析が中心だったが、本研究では大規模な半自動化されたWhat-if分析を導入している。 **独自の貢献**: - 実運用環境での大規模実証研究（3079ジョブ、数万GPU） - ストラグラーパターンの可視化手法（ヒートマップによる診断） - SMon監視システムの開発と実装 #### 実験設定 **使用データセット**: ByteDance内部のLLM訓練クラスターから収集された実運用データ。ジョブ規模は128GPU〜数千GPUまで様々で、密モデルとMixture-of-Experts（MoE）モデルの両方を含む。 **評価指標の定義**: - **Slowdown Ratio**: (T_original - T_ideal) / T_ideal - **Resource Waste**: ストラグラーによって無駄になったGPU時間の割合 - **Worker Slowdown**: 個別ワーカーのストラグラー寄与度 #### 実験結果 **主要な発見**: - **ストラグラーの蔓延**: 42.5%の訓練ジョブが少なくとも10%の性能低下を経験 - **深刻なケース**: 最悪の場合、45%のGPUリソースが無駄になる - **パターン分析**: ストラグラーは一時的な環境要因ではなく、持続的な問題によることが多い（同一ジョブ内の大部分のステップで類似の遅延が発生） - **原因分析**: 計算オペレーションの遅延が通信オペレーションよりも支配的（先行研究FALCONとは対照的） **根本原因の特定**: 1. **パイプライン段階の不均衡**: 39.3%のジョブで最終段階（損失レイヤー含む）の計算負荷が他段階より大きい 2. **シーケンス長の不均衡**: 長コンテキストジョブ（21.4%）でアテンション計算の二次的複雑性により発生 3. **Pythonガベージコレクション**: 自動GCによる100ms規模の停止が全体の訓練を遅延させる **定量的成果**: - ステージ分割の手動最適化により9.9%の高速化を達成 - シーケンス長バランシングアルゴリズムにより23.9%のスループット向上 - 計画的GC最適化により12.6%の改善論文の内容は、LLM訓練における実用的な課題を体系的に分析し、実運用環境での解決策を提案している点で非常に価値が高い。特に、What-if分析という手法を大規模システムに適用した点と、実際に監視システム（SMon）として実装された点が実用的な貢献として評価される。 ## Abstract 大規模言語モデル（LLM）の訓練は、今日最も要求の厳しい分散計算の一つであり、しばしば数千台のGPUとマシン間での頻繁な同期を必要とする。このようなワークロードパターンは、少数の遅いワーカーによって訓練が停止される「ストラグラー」問題に対して脆弱性を持つ。ByteDanceでは、ストラグラーは単純にハードウェア障害によるものではなく、複数の複雑な要因から生じることを発見した。本研究は、ByteDanceのLLM訓練クラスターから5ヶ月間収集したトレースを用いて、LLM訓練におけるストラグラー問題の包括的研究を提示することを目的としている。核となる手法は、ストラグラーが存在しないシナリオをシミュレートし、実際のケースと対比するWhat-if分析である。この手法を用いて以下の問いを研究する：（1）ストラグラーは訓練ジョブにどの程度の頻度で影響し、ジョブ性能にどのような効果をもたらすか、（2）ストラグラーは時間的または空間的パターンを示すか、（3）ストラグラーの潜在的な根本原因は何か。