# FaultInsight [[Peking University]]([[Tingzhu Bi]]・[[Yicheng Pan]]・[[Xinrui Jiang]]・[[Meng Ma]]・[[Ping Wang (Peking University)]] ら)と [[ByteDance]](Yu Zhang・Yang Zhang・Linlin Han・Feng Wang・Xian Liu)が共同開発した、ハイパースケールデータセンターのホスト障害診断フレームワーク。KDD 2024 に発表。実装は [github.com/etigerstudio/FaultInsight](https://github.com/etigerstudio/FaultInsight) で公開されている。 ## システム概要 FaultInsight は CPU・メモリ・ネットワーク・ディスク I/O・プロセス・ソケット等の**異種(heterogeneous)**ホストメトリクスを対象とし、以下の 3 段階で障害を診断する。 1. **障害ダイナミクス発見**: セマンティクス分離 TCN オートエンコーダ + chronological perturbation により、時変の動的因果グラフ D を構築する 2. **障害ダイナミクス分析**: 動的影響スコアリング(動的 PageRank の拡張)で各メトリクスの外向き・内向き影響強度とピーク伝播タイムスタンプを算出する 3. **障害ダイナミクス解釈**: 根本原因メトリクスランキング・メトリクスレベル概観グラフ・コンポーネントフロー Sankey 図・時系列整合伝播ネットワークの 4 種の診断表現を提供する ## 評価結果 ByteDance 本番環境の 26 件のホスト障害で評価し、9 種のベースライン(ε-Diagnosis・RCD・CIRCA・DyCause・CloudRanger・Granger・PCMCI・cMLP・TCDF)を全指標で大幅に上回った(Avg.PR 65.4、RankScore 88.5)。 ## 関連 - 詳細: [[@2024__KDD__FaultInsight - Interpreting Hyperscale Data Center Host Faults]] - 所属グループ: [[Peking University]] / [[ByteDance]] - 関連システム: DyCause(同グループの [[Yicheng Pan]] が第一著者)/ [[JustDiag]](同グループの [[Tingzhu Bi]] が第一著者) - 関連概念: [[根本原因分析]] / [[因果発見]] / [[Fault Localization]] / [[AIOps]]