@2025__ICLR__Robust Root Cause Diagnosis using In-Distribution Interventions

> [!abstract] 概要(abstract の日本語訳) > 複雑な相互接続システムにおける異常の根本原因を診断することは、今日のクラウドサービスや産業オペレーションにおける喫緊の課題である。本論文では、In-Distribution Interventions (IDI) という新しいアルゴリズムを提案する。IDI は、(1) 異常条件：根本原因ノードは異常値をとる、(2) 修正条件：根本原因ノードが通常値をとった場合、ターゲットノードに異常は生じなかったはず、という 2 つの基準を満たすノードとして根本原因を予測する。修正条件の評価における従来手法は、歴史的データから学習した構造的因果モデル(SCM)から推定される反事実に依存する。しかし、異常はまれであり訓練分布外にあるため、学習済み SCM は信頼性の低い反事実推定を与える。IDI はこれを克服するために、学習済み SCM を分布内入力のみでプロービングして得られた介入推定に依存する。本論文では、介入推定と反事実推定を用いた修正条件評価の誤差を比較・バウンドする理論的分析を提示する。次に、SCM の複雑さを体系的に変化させる実験を行い、IDI の介入アプローチが反事実アプローチを上回る場合とその逆の場合を示す。合成データセットと PetShop RCD ベンチマークデータセットの両方での実験により、IDI が 9 件の既存 SOTA RCD ベースラインよりも一貫して真の根本原因をより正確かつ頑健に特定することを示す。コードは https://github.com/nlokeshiisc/IDI_release で公開されている。 ## 論文情報 - **タイトル**: Robust Root Cause Diagnosis using In-Distribution Interventions - **著者**: [[Lokesh Nagalapatti]]（[[IIT Bombay]]）、Ashutosh Srivastava（IIIT Hyderabad）、[[Sunita Sarawagi]]（[[IIT Bombay]]）、[[Amit Sharma]]（Microsoft Research India） - **媒体**: ICLR 2025（International Conference on Learning Representations） - **発表年**: 2025 - **arXiv**: 2505.00930 (cs.LG, 2025-05-02 投稿) - **コード**: https://github.com/nlokeshiisc/IDI_release ## 概要クラウドシステムの KPI 異常における根本原因診断（RCD）に対して、IDI（In-Distribution Interventions）アルゴリズムを提案する。従来の反事実ベース手法は、異常が訓練分布外（OOD）にあるため SCM の帰納(abduction)ステップで誤差が蓄積するという問題があった。IDI は修正条件の評価を介入(intervention)推定に切り替えることで、学習済み SCM を常に分布内入力でプロービングし、OOD ドリフトに対して頑健な診断を実現する。PetShop クラウドデータセットおよび合成 SCM 実験で 9 件のベースラインを全設定で上回った。 ## 問題設定 - **入力**: 因果グラフ G、通常観測データ D_trn、単一のテスト異常インスタンス x - **出力**: 異常の根本原因ノード集合 - **前提**: 因果グラフは既知（クラウド展開では逆コールグラフから取得可能） - **根本原因の定義**: 以下 2 条件を満たすノード X_j 1. **異常条件（Anomaly Condition）**: X_j は異常だが、その親ノードは正常 2. **修正条件（Fix Condition）**: X_j を通常値 x_j^fix に設定したとき、ターゲットノード X_n の異常が解消する ## 提案手法 ### 核心的な問題: SCM の OOD 誤差反事実の推定は 3 段階の手順を踏む: 1. **帰納（Abduction）**: xi = fi(PaXi, εi) からεi を逆算 2. **行動（Action）**: 根本原因ノードに修正値を適用 3. **予測（Prediction）**: 子孫ノードへ伝播帰納ステップでは fi を OOD 入力 xj（異常値）に適用して εj を推定するが、fi は訓練分布内データのみで学習されているため、OOD 領域では誤差が大きい（図1 の (c) パネル参照）。 **図1: 反事実と介入の比較** ![[_attachments/arxiv-2505.00930/fig01-abduction-errors.png]] (Figure 1. 4 パネルで帰納誤差の影響を示す。(a) 根本原因サンプル: x1 が根本原因で x4 が異常ターゲット。(b) 真の反事実: oracle の εj を使った修正後。(c) 推定反事実: OOD 入力で εj を帰納するため誤差が拡大（赤丸）。(d) 推定介入: εj を訓練分布からサンプルするため OOD 誤差なし。Source: Figure 1, Nagalapatti et al. ICLR 2025.) ### IDI のアルゴリズム **ステップ 1: 異常条件フィルタリング** - G の先祖ノードを順に走査 - X_i が異常かつ親ノードが全て正常 → R_cand（候補集合）に追加 - Z スコアで異常判定（他の異常検知器にも対応可） **ステップ 2: 修正条件の介入評価** *単一根本原因の場合*: - R_cand の各ノード X_j に修正値 x_j^fix を適用 - 修正値: x_j^fix ∼ P^trn_X(Xj | Paxj)（通常分布からサンプル） - 下流の外生変数 ε̃_i を訓練推定分布 P̂^trn_εi からサンプル（帰納しない） - ターゲット X_n が通常に戻るかを確認 *複数根本原因の場合*: - 複数の根本原因が共通子孫を持つ場合、単一修正は OOD 評価を引き起こす - Shapley 値（協力ゲーム理論）を使い、各ノードの修正への貢献を公平に評価 - 効用関数: gn(xn) − gn(x̂n^int(α))（修正前後の異常スコア差） **図2: IDI のパイプライン** ![[_attachments/arxiv-2505.00930/fig02-idi-pipeline.png]] (Figure 2. 訓練フェーズ（左）: 異常閾値・異常検知器・SCM を学習。推論フェーズ（右）: 異常条件で R_cand = {X1, X4} に絞り込み、修正条件で X4 を除外して X1 を根本原因と宣言。Source: Figure 2, Nagalapatti et al. ICLR 2025.) ## 新規性既存の「修正条件」評価手法（SAGE、CF Attribution、TOCA、HRCD）はいずれも SCM を OOD 入力でプロービングする。IDI はこれを初めて系統的に問題として定式化し、介入推定（exogenous 変数を帰納せず訓練分布からサンプル）によって解決した。 ## 理論的分析加算ノイズモデル（X_i = fi(PaXi) + εi）の chain グラフ G = X1 → ··· → Xn を対象に、以下の 2 定理を示す。 **定理 5（反事実誤差のバウンド）**: $E[|x_n^{CF(j)} - \hat{x}_n^{CF(j)}|] \leq \sum_{i>j} K^{n-i} \cdot E_{x_{i-1} \sim P^{trn}}[|f_i - \hat{f}_i|] + M^{n-i+1} \cdot \text{tvd}(P^{trn}_{X_{i-1}}, Q^{RC(j)}_{X_{i-1}})$ 主要項は **tvd(訓練分布, 根本原因（異常）分布)** であり、OOD 異常ほど大きくなる。 **定理 6（介入誤差のバウンド）**: $E[|x_n^{CF(j)} - \hat{x}_n^{int(j)}|] \leq \sum_{i>j} K^{n-i} \cdot E_{x_{i-1} \sim P^{trn}}[|f_i - \hat{f}_i|] + M^{n-i+1} \cdot \text{tvd}(P^{trn}_{X_{i-1}}, \hat{P}^{trn}_{X_{i-1}}) + \text{std}(\varepsilon_i)$ tvd(訓練分布, 異常分布) の項が消え、**std(εi) でバウンドされる**。外生変数の分散が小さければ介入推定は反事実より常に安定する。 ## 実験設定 - **PetShop データセット**: Amazon がリリースしたクラウドマイクロサービス RCD ベンチマーク。コールグラフ付き KPI データで、低/高/一時的レイテンシ異常の 3 種類 - **合成 SCM 実験**: RQ1（線形 SCM）・RQ2（非線形可逆 SCM）・RQ3（非線形非可逆 SCM）の 3 条件、単一/複数根本原因 - **ベースライン**: 9 手法（相関系: Random Walk, Ranked Correlation, ε-Diagnosis / 因果異常系: CIRCA, Traversal, Smooth Traversal / 因果修正系: HRCD, TOCA, CF Attribution） - **評価指標**: Recall@k（k=1, 3） ## 実験結果 **PetShop 結果（表1）**: ![[_attachments/arxiv-2505.00930/tab01-petshop-results.png]] (Table 1. PetShop データセットでの RCD 結果。IDI は低/高/一時的レイテンシの全設定で Recall@1=0.90〜1.00 を達成し、全ベースラインを上回る。高レイテンシの Recall@3 のみ CIRCA が同率最高。Source: Table 1, Nagalapatti et al. ICLR 2025.) - IDI: Recall@1 = 0.90/0.90/1.00（低/高/一時的） - 最良ベースライン（Traversal）: 0.80/0.90/1.00 **合成 SCM 結果（表2）**: ![[_attachments/arxiv-2505.00930/tab02-synthetic-results.png]] (Table 2. 合成 SCM での Recall@k=1, 3。IDI は全 6 設定（3 条件 × 単一/複数根本原因）で最高または同率最高。RQ3 非線形非可逆・複数根本原因でも Recall@1=0.63（次善 CF Attribution の 0.00 比）。Source: Table 2, Nagalapatti et al. ICLR 2025.) **介入 vs 反事実のトレードオフ（図5）**: ![[_attachments/arxiv-2505.00930/fig05-variance-experiments.png]] (Figure 5. 4 変数トイデータセットでの分散レベル別エラー比較。低分散・線形モデルでは反事実誤差も小さいが、非線形または高分散ではデータ不足と OOD 汎化失敗により反事実誤差が爆発する。介入誤差は外生変数の std にバウンドされ常に安定。Source: Figure 5, Nagalapatti et al. ICLR 2025.) 主要な観察: - 低分散・線形: 反事実も小さい誤差（linear は OOD 汎化する） - 非線形・少データ: 反事実誤差が大きく、介入が優位 - 超高分散: 加算ノイズ仮定が崩れると反事実が悪化（実世界の非可逆 SCM の場合） ## 考察 - IDI は反事実系（CF Attribution）の上位互換版と解釈できる。CF Attribution は R_cand フィルタなしで全ノードに Shapley 分析を行うが、IDI は(1) R_cand で候補を絞り込んだ上で(2) 介入（帰納なし）を使うため精度と効率の両面で優る - 加算ノイズ仮定のもとで訓練データが十分な場合、反事実推定は真値に収束するため、IDI（介入）は外生変数の std の分だけプラトーが残る（限界） - 仮定 1（単一経路に高々 1 つの根本原因）が違反される場合、IDI の性能は低下するが、それでも CF Attribution より高い（表5） ## 強み / 弱点・課題 **強み**: - 理論的に介入 vs 反事実の誤差を比較し、OOD 異常での介入の優位性を証明した - PetShop および合成 SCM の両方で全ベースラインを上回る - 既存の RCA ライブラリ（PetShop の実装）に統合可能な設計 **弱点・課題**: - 仮定 1（単一経路に高々 1 つの根本原因）: 違反時に性能低下あり - 加算ノイズ仮定: 非加算ノイズ SCM での理論保証は限定的 - 因果グラフを既知として受け取る（グラフ学習は対象外） - Shapley 値の計算コストは NP-Hard（500 パーミュテーションの Monte Carlo で近似）