[[iFLYTEK AI Engineering Institute]]・[[University of Science and Technology of China]]・[[Huawei Technologies]] が開発した、大規模 LLM 訓練向けの高速かつ低コストな障害復旧システム。3 つのコアモジュールから成る。(1)ハートビートと Device Plugin によるアクティブ障害検知(数秒、PyTorch 既定 1,800 秒比 約 99% 短縮)、(2)スケール非依存タスク再起動(限定再作成+並列 TCP Store+共有ファイル経由グローバルランクテーブルで O(n)→O(1))、(3)データ並列の複製を活用したチェックポイントフリー 1 ステップ復旧。
[[Ascend NPU]] を 10,000 基超展開した実機クラスタで、4,800 デバイスでも総復旧 150 秒以内を達成し、規模非依存性を実証した([[耐障害LLM訓練]] / [[チェックポイント]] / [[並列化戦略]])。
## 関連
- ソース: [[@2025__arXiv__FlashRecovery - Fast and Low-Cost Recovery from Failures for Large-Scale Training of LLMs]]
- 基盤: [[Ascend NPU]]
- 概念: [[耐障害LLM訓練]]、[[チェックポイント]]、[[LLM分散学習]]、[[並列化戦略]]、[[LLM学習モニタリング]]
- MOC: [[分散深層学習 - MOC]]