# TrainCheck
[[University of Michigan]] [[OrderLab]]([[Yuxuan Jiang]]・[[Peng Huang]] ほか)が開発した DL 訓練サイレントエラー検知フレームワーク。Python 22,700 行。[[OSDI 2025]] 発表。OSS: https://github.com/OrderLab/TrainCheck
**3 コンポーネント構成**:
1. **Instrumentor**: モンキーパッチングで DL フレームワーク API を動的計装。選択的計装でオーバーヘッド通常 2% 以下
2. **Infer Engine**: サンプルパイプラインのトレースから訓練不変条件を自動推論(仮説生成→検証→前提条件推論)
3. **Verifier**: ストリーミングトレースを消費し不変条件違反をリアルタイム検知・報告
**性能(OSDI 2025)**:
- 20 件の実世界サイレントエラーの 18 件を 1 イテレーション以内に検知
- 既存ツール(損失監視、PyTea/NeuRI)の合計 2〜3 件に対し大幅な改善
- 未報告 6 件の新規バグを DeepSpeed・Accelerate で発見
- 偽陽性率: 2% 以下(5〜6 件入力)
## 関連
- ソース: [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]]
- エンティティ: [[Yuxuan Jiang]] / [[Peng Huang]] / [[OrderLab]]
- 概念: [[DLトレーニングサイレントエラー]] / [[訓練不変条件]]