2025__ICLR__Robust Root Cause Diagnosis using In-Distribution Interventions

## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: Robust Root Cause Diagnosis using In-Distribution Interventions - **著者と所属**: Lokesh Nagalapatti, Ashutosh Srivastava, Sunita Sarawagi, Amit Sharma (Microsoft Research) - **カンファレンス/ジャーナル名**: International Conference on Learning Representations (ICLR) - **発表年**: 2025年 ### 論文概要複雑な相互接続システムにおける異常の根本原因を診断するために、従来の反実仮想推論ではなく、分布内介入（In-Distribution Interventions, IDI）を用いた新しいアルゴリズムを提案している。IDIは学習された構造因果モデル（SCM）の分布内入力のみを用いて介入推定を行うことで、従来手法の課題である異常時の信頼性の低い[[反実仮想]]推定を克服している。 ### 詳細解説 #### 問題設定根本原因診断（RCD）問題として、以下の要素を定義している： - **入力**: 複雑な相互接続システムの監視データ（時系列データ） - **出力**: 異常の根本原因となるノード（変数）の特定 - **必要なデータ**: 過去の正常データから学習された構造因果モデル（SCM）根本原因ノードは以下の2つの基準を満たす必要がある： 1) **異常性（Anomaly）**: 根本原因ノードが異常な値を取る 2) **修正性（Fix）**: 根本原因ノードが通常の値を取っていれば、対象ノードは異常にならなかった #### 提案手法 **In-Distribution Interventions (IDI)アルゴリズム**を提案している：従来手法では修正条件の評価に反実仮想推論を使用していた： ``` counterfactual_samples = counterfactual_inference(SCM, interventions, observed_data) ``` IDIでは代わりに介入推論を使用： ``` interventional_samples = interventional_inference(SCM, interventions, observed_data) ``` IDIの核となる考え方は、異常は稀で学習分布外に存在するため、学習されたSCMから得られる反実仮想推定は信頼性が低いという点である。IDIはSCMを分布内入力でのみ探査することで、より信頼性の高い介入推定を得る。 #### 新規性先行研究との主な違いは： 1. **理論的分析**: 介入推定と反実仮想推定における修正条件評価の誤差比較と境界の提供 2. **分布内制約**: 異常時でも学習分布内での推論のみを使用することで頑健性を向上 3. **実用性**: PetShop RCDベンチマークなど実世界データセットでの検証従来のRCA手法（CIRCA、MicroHECL、AutoMAPなど）は反実仮想推論に依存しており、学習分布外の異常に対して脆弱であった。 #### 実験設定以下のデータセットを使用して評価を実施： - **合成データセット**: 線形およびMLP構造因果モデル - 変数数、根本原因数、構造の複雑さを体系的に変化 - 線形方程式（linear_eqns）、可逆性（invertible）などのパラメータ制御 - **PetShop RCDベンチマークデータセット**: 実世界のマイクロサービスシステムデータ **評価指標**: - 精度（Precision） - 再現率（Recall） - F1スコア - 根本原因特定の正確性 #### 実験結果論文中で報告されている具体的な数値結果： - **PetShopデータセット**: IDIは9つの最先端RCDベースライン手法を一貫して上回る性能を示した - **合成データ**: SCMの複雑さを体系的に変化させた実験において、IDIの介入アプローチが反実仮想アプローチを上回るケースと逆のケースを明確に実証 - **頑健性**: 異常の程度や分布外度合いが増すほど、IDIの優位性がより顕著に現れることを確認実験では、線形SCMと非線形MLP-SCMの両方でIDIの有効性を検証している。特に、学習分布から大きく外れた異常に対してIDIが従来手法よりも頑健であることが示されている。論文の内容には理論的基盤と実験的検証の両方が含まれており、提案手法の有効性が多角的に示されている。ただし、実世界システムでの大規模展開における計算効率性についてはさらなる検証が必要と考えられる。 ## Abstract 複雑な相互接続システムにおける異常の根本原因の診断は、今日のクラウドサービスおよび産業運用において緊急の課題である。我々は、根本原因を以下の2つの基準を満たすノードとして予測する新しいアルゴリズム、In-Distribution Interventions（IDI）を提案する：1）**異常性**：根本原因ノードは異常な値を取るべきである；2）**修正性**：根本原因ノードが通常の値を仮定していれば、対象ノードは異常にならなかったであろう。修正条件を評価する従来の手法は、過去のデータで訓練された構造因果モデル（SCM）から推論される反実仮想に依存している。しかし、異常は稀で訓練分布の外にあるため、適合されたSCMは信頼性の低い反実仮想推定を生成する。IDIは、適合されたSCMを分布内入力でのみ調査することによって得られる介入推定に依存することでこれを克服する。我々は、介入推定と反実仮想推定を用いた修正条件評価の誤差を比較し、境界を設ける理論分析を提示する。次に、IDIの介入アプローチが反実仮想アプローチを上回る場合とその逆の場合を実証するために、[[構造的因果モデル|SCM]]の複雑さを体系的に変化させた実験を実施する。合成データセットと[[2023__CLEaR_The PetShop Dataset — Finding Causes of Performance Issues acrossMicroservices|PetShop]] RCDベンチマークデータセットでの実験により、IDIが9つの既存の最先端RCDベースラインよりも一貫して正確かつ頑健に真の根本原因を特定することが実証される。