# Guard
Amazon [[Store Foundational AI]] が開発した、大規模学習クラスタ向けの[[ストラグラー]]検知・[[GPUクラスタ運用|ノード健全性管理]]システム。学習中のオンラインモニタリング(ピアベース相対異常検知 + 段階的緩和)と、ノード復帰前のオフラインノードスイープ(現実的ワークロード再現による持続性能検証)を閉ループ統合し、標準ヘルスチェックを通過しつつ性能を暗黙に劣化させるグレーノード(フェイルスロー)を検知・隔離・修復・復帰させる。大規模事前学習で MFU 最大 1.7 倍、ステップ時間分散 20% から 1%、平均ステップ時間 17 秒から 10 秒を達成した([[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]])。検知ツールの一部は [[fkat]] としてオープンソース化されている。
## 関連
- ソース: [[@2026__MLSys2026__Guard - Scalable Straggler Detection and Node Health Management for Large-Scale Training]]
- 概念: [[ストラグラー]] / [[耐障害LLM訓練]] / [[LLM学習モニタリング]] / [[GPUレジリエンス]]
- エンティティ: [[Store Foundational AI]] / [[fkat]]