TrainCheck - yuuk1's Digital Garden

# TrainCheck [[University of Michigan]] [[OrderLab]]([[Yuxuan Jiang]]・[[Peng Huang]] ほか)が開発した DL 訓練サイレントエラー検知フレームワーク。Python 22,700 行。[[OSDI 2025]] 発表。OSS: https://github.com/OrderLab/TrainCheck **3 コンポーネント構成**: 1. **Instrumentor**: モンキーパッチングで DL フレームワーク API を動的計装。選択的計装でオーバーヘッド通常 2% 以下 2. **Infer Engine**: サンプルパイプラインのトレースから訓練不変条件を自動推論(仮説生成→検証→前提条件推論) 3. **Verifier**: ストリーミングトレースを消費し不変条件違反をリアルタイム検知・報告 **性能(OSDI 2025)**: - 20 件の実世界サイレントエラーの 18 件を 1 イテレーション以内に検知 - 既存ツール(損失監視、PyTea/NeuRI)の合計 2〜3 件に対し大幅な改善 - 未報告 6 件の新規バグを DeepSpeed・Accelerate で発見 - 偽陽性率: 2% 以下(5〜6 件入力) ## 関連 - ソース: [[@2025__OSDI__Training with Confidence - Catching Silent Errors in Deep Learning Training with Automated Proactive Checks]] - エンティティ: [[Yuxuan Jiang]] / [[Peng Huang]] / [[OrderLab]] - 概念: [[DLトレーニングサイレントエラー]] / [[訓練不変条件]]