Minder - yuuk1's Digital Garden

# Minder [[ByteDance]] が開発し本番 ML システムで 1 年以上稼働させる、大規模分散訓練タスク向けの自動障害マシン検出器。訓練を止めずバックエンドサービスとして常駐し、全マシンのホスト監視メトリクスを Data API から取得して実行時に障害を起こしたマシン 1 台を特定する。(Source: [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]]) 核となる 4 つの着想: - **マシン単位の類似度**: 3D 並列化で全マシンのメトリクスが秒単位で類似する性質を逆手に取り、他から最も「遠い」マシンを障害候補とする(教師なし類似度ベース)。 - **マシン単位の連続性**: 障害由来の異常は数分持続し、ジッタは短命である。連続検出(閾値 4 分)でバースト的なノイズを除去する。 - **メトリクス単位の LSTM-VAE**: メトリクスごとに独立した VAE でノイズ除去・再構成を行う(統合モデルは相互干渉で誤誘導を招く)。 - **メトリクスの優先順位付け**: 決定木でメトリクスを障害感度順に並べ、上位(PFC/CPU/GPU/NVLink 系)から検査して高速化する。実績: 150 件の障害で適合率 0.904・F1 0.893、平均 3.6 秒でアラートを発する(手動診断比で 99% 短縮・500 倍)。ベースラインの Mahalanobis Distance を適合率/F1 で上回る。検出後はドライバが障害マシンの IP をブロックし、Kubernetes に Pod 情報を提出して退避させ、チェックポイントから復旧する。同社の [[MegaScale]] が持つハートビートベースのロバストな訓練フレームワークを、メトリクスのパターン解析という別アプローチで補完する位置づけ。 ## 関連 - ソース: [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] - 概念: [[Fault Localization]] / [[GPUクラスタ運用]] / [[LLM分散学習]] / [[変化点検知]] - エンティティ: [[ByteDance]] / [[MegaScale]] / [[Megatron-LM]]