# ReCycle
[[Stanford University]]([[Swapnil Gandhi]], [[Christos Kozyrakis]] ほか)が開発した耐障害 DNN 訓練システム。SOSP '24 で発表。DeepSpeed 上にプロトタイプ実装。
## 概要
ハイブリッド並列訓練(データ並列 DP × パイプライン並列 PP × テンソル並列 TP)の 2 つの内在的特性を活用する。
1. **機能的冗長性**: 同一パイプラインステージを担うデータ並列ピアは同一パラメータを保持する。障害発生時にマイクロバッチをピアへ再ルーティングできる。
2. **パイプラインバブル**: 1F1B スケジュールの特にウォームアップ・クールダウンフェーズに存在するアイドルスロットを、再ルーティング処理に活用する。
## 3 技術
| 技術 | 目的 |
|------|------|
| **適応的パイプライン(Adaptive Pipelining)** | 障害ワーカーのマイクロバッチをデータ並列ピアへ動的再ルーティング |
| **分割逆伝播(Decoupled BackProp)** | B_weight 計算をクールダウンバブルに遅延させ、ステディフェーズの競合を解消 |
| **ストラグラーオプティマイザ(Staggered Optimizer)** | ステージごとのオプティマイザステップをずらしてウォームアップバブルも活用 |
## 性能
- Oobleck 対比最大 1.46×、Bamboo 対比最大 1.64× のスループット向上(GCP トレース再生)
- 10% GPU 障害率で Fault-Scaled スループットの 0.5〜11.5% 低下以内を維持(シミュレーション)
## 出典
- [[@2024__SOSP__ReCycle - Resilient Training of Large DNNs using Pipeline Adaptation]]