ReCycle - yuuk1's Digital Garden

# ReCycle [[Stanford University]]([[Swapnil Gandhi]], [[Christos Kozyrakis]] ほか)が開発した耐障害 DNN 訓練システム。SOSP '24 で発表。DeepSpeed 上にプロトタイプ実装。 ## 概要ハイブリッド並列訓練(データ並列 DP × パイプライン並列 PP × テンソル並列 TP)の 2 つの内在的特性を活用する。 1. **機能的冗長性**: 同一パイプラインステージを担うデータ並列ピアは同一パラメータを保持する。障害発生時にマイクロバッチをピアへ再ルーティングできる。 2. **パイプラインバブル**: 1F1B スケジュールの特にウォームアップ・クールダウンフェーズに存在するアイドルスロットを、再ルーティング処理に活用する。 ## 3 技術 | 技術 | 目的 | |------|------| | **適応的パイプライン(Adaptive Pipelining)** | 障害ワーカーのマイクロバッチをデータ並列ピアへ動的再ルーティング | | **分割逆伝播(Decoupled BackProp)** | B_weight 計算をクールダウンバブルに遅延させ、ステディフェーズの競合を解消 | | **ストラグラーオプティマイザ(Staggered Optimizer)** | ステージごとのオプティマイザステップをずらしてウォームアップバブルも活用 | ## 性能 - Oobleck 対比最大 1.46×、Bamboo 対比最大 1.64× のスループット向上(GCP トレース再生) - 10% GPU 障害率で Fault-Scaled スループットの 0.5〜11.5% 低下以内を維持(シミュレーション) ## 出典 - [[@2024__SOSP__ReCycle - Resilient Training of Large DNNs using Pipeline Adaptation]]