# Fault Localization
## 定義
Fault localization は、failure が検知された後に、その原因となる fault の発生源(根本となる監視メトリクス = root fault metrics、あるいは microservice/component)を telemetry データから特定する営み。[[AIOps]] の 4-level taxonomy では detection(Level 1)の上、root cause analysis(Level 3)の手前の Level 2 に位置する。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) metric-based の手法は anomaly-degree(異常度の高いメトリクスを root とみなす)と anomaly-propagation(因果グラフ上で異常の伝播を辿る)の 2 系統に大別され、後者は PC アルゴリズムなどの因果探索 + PageRank/random walk などのグラフ走査で root fault metrics を順位付けする。([[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) 粒度には component 単位の coarse-grained と metric 単位の fine-grained があり、後者ほど [[特徴量削減]] の恩恵を受けやすい。
## 横断的知見
- **統計的 localization と LLM エージェント localization の対比**: [[MetricSifter]]([[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]])は LLM 以前の古典的アプローチで、change point detection・KDE・因果探索という教師なし統計手法で root fault metrics を局所化する。一方 [[AIOpsLab]]・[[Bits AI SRE]] は LLM エージェントが telemetry を tool call で読みながら推論で局所化する。両者は同じ Level 2 タスクを解くが、前者は「アルゴリズムでメトリクス集合を絞る」、後者は「エージェントが探索的にクエリする」という対照的な戦略をとる。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]])
- **「ノイズメトリクスを減らす」課題が統計手法と LLM エージェントで通底する**: MetricSifter は無関係メトリクス $M_C$ を localization の前に除去することが「$M_C$ が localization にノイズを持ち込む」ため有益だと述べる。これは LLM エージェント側で観測された「telemetry を取りすぎると context window を圧迫し性能が落ちる」病理([[AIOpsLab]] §3.6、[[Bits AI SRE]] の初期版失敗、[[根本原因分析]] に詳述)と同根。MetricSifter の feature reduction は、この情報過多問題への古典統計側の前処理的解であり、LLM エージェント時代の「telemetry を雑に消費しない」教訓を 2024 年の統計手法が先取りしている。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]])
## 未解決の問い
- 統計的 feature reduction([[MetricSifter]])で絞ったメトリクス集合を、LLM エージェント([[AIOpsLab]]/[[Bits AI SRE]])の入力前処理として与えると、エージェントの context window 圧迫問題は緩和され localization 精度は上がるか。古典手法と LLM エージェントのハイブリッドは成立するか。
- MetricSifter は 1,000 メトリクス超でスケーラビリティが崩れ top-5 recall < 0.2 になると報告する。LLM エージェント手法は同じ大規模設定でどこまで耐えるか。スケールに対する両アプローチの劣化曲線は異なるのか。
- fault localization(Level 2)の成功判定は exact-match([[AIOpsLab]])か LLM judge([[SREGym]])か。MetricSifter の AVG@K(top-k recall)のような順位ベース指標と、エージェント評価の指標はどう接続するか([[SRE Benchmark]] 参照)。
## 関連
- ソース: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] / [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] / [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]
- 概念: [[AIOps]] / [[根本原因分析]] / [[特徴量削減]] / [[変化点検知]] / [[テレメトリ]] / [[SRE Benchmark]]
- エンティティ: [[MetricSifter]] / [[PyRCA]] / [[AIOpsLab]] / [[Bits AI SRE]]
- 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[異常検知 - MOC]] / [[Project AI4SRE - MOC]] / [[SRE - MOC]]
## 出典
- [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]](§II-A, §II-B, §VI)
- [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]](§1.4.3 / §5 mining 層の fault localization、telemetry data mining dilemma)
- [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](Table 1, Level 2 Localization)