因果推論ベースRCA - yuuk1's Digital Garden

# 因果推論ベースRCA ## 定義因果推論ベース RCA（Causal Inference-based Root Cause Analysis）は、マイクロサービスシステムのメトリクス時系列データから**因果グラフ**を構築し、そのグラフ上でスコアリング手法を適用して障害の根本原因サービス・メトリクスを特定するアプローチである。因果グラフの各ノードはサービスのメトリクスを表し、有向エッジは因果関係を示す。通信していないサービス間の関係（同一 VM 上でのリソース競合等）も捉えられる点が相関ベース手法との差異である。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) 主なパイプラインは **因果探索（Causal Discovery）→ スコアリング（Scoring）** の 2 段構成: 1. **因果探索**: メトリクス時系列から有向非巡回グラフ（DAG）を推定（PC・FCI・Granger・LiNGAM・GES・NOTEARS 系等） 2. **スコアリング**: 推定グラフ上でランダムウォーク・PageRank・DFS・仮説検定を用いて根本原因を特定あるいは因果グラフを構築せずに仮説検定のみで行う手法（NSigma・BARO・ε-Diagnosis）も広義で因果推論ベースに分類される。 ## 主要な手法類型 ### 因果探索アルゴリズム - **PC / FCI**: 条件付き独立性検定ベース。PC が最も普及。FCI は交絡変数を扱える - **Granger 因果性**: 時系列 A が B の予測に統計的有意な情報を提供するか検定 - **LiNGAM**: 線形非ガウスモデル。交絡なしを仮定 - **GES / fGES**: 貪欲探索 + BIC スコア。計算効率が高い - **PCMCI**: 時間遅れ因果関係を扱える PC 変種 - **DAG-GNN（CausalRCA）**: 勾配ベース変分オートエンコーダで DAG を学習 - **PCMCI+**: 時間遅れ・同時因果関係を両方扱える PCMCI の拡張版（Tigramite ライブラリ） ### RCA 手法（代表） - **RADICE（arXiv 2025）**: PCMCI+ ベースの因果発見 + エントロピー方向付け + 部分ドメイン知識 + 調整済み相関スコア。根本原因「集合」ではなく根本原因「因果サブグラフ」を出力する最初の手法 - **MonitorRank（SIGMETRICS 2013）**: 相関比例のパーソナライズドランダムウォーク。因果グラフ構築を経ずにサービス依存グラフ上で直接 RCA する最初の手法 - **CloudRanger・Microscope・MS-Rank・AutoMap・MicroCause**: PC 系 + ランダムウォーク/PageRank - **MicroDiag（CloudIntelligence 2021）**: SCM（DirectLiNGAM）+ Granger 因果性 + PageRank。コンポーネント依存グラフで探索空間を制限し、細粒度（コンポーネント + メトリクス種別）の根本原因特定を実現。Sock-shop で PR@3=97%。 - **CIRCA**: ドメイン知識構築グラフ + 介入認識による仮説検定。障害時刻の精確な指定が必要 - **RCD**: 分割統治 Ψ-PC。効率性と時刻誤差への耐性を両立 - **CausalRCA**: DAG-GNN + PageRank。障害時刻指定不要 - **BARO**: 中央値/IQR ベイズオンライン変化点検知。グラフ不要・高速・時刻誤差頑健 - **NSigma**: z スコア仮説検定。グラフ不要・超高速だが時刻誤差に敏感 - **LatentScope(KDD 2024)**: CIRCA の介入認識を**潜在空間に拡張**した手法。観測不能な RCC(サードパーティーサービス等)を潜在変数としてモデル化するデュアル空間グラフ + RLIR アルゴリズム。eBay 本番 66 件実障害で CIRCA-Max 比 Macro Top@1 +48.6% 達成 ## 横断的知見 - **入力削減は因果探索前の必須設計であり、単なる高速化ではない**: 坪内の 2022 年講演は、異常検知とコンポーネント内の形状クラスタリングで時系列を減らしてから因果グラフを生成する構想を示した。PC 系 RCA の前処理が出力品質を支配するという後年の比較研究と合わせると、削減は計算量だけでなく、診断に必要なノードと経路を残す境界設計である。(Source: [[@2022__SRE NEXT 2022__AIOps研究録―SREのためのシステム障害の自動原因診断]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **CIRCA(KDD'22)と RCD(NeurIPS'22)は同年に発表された因果推論 RCA の二大設計対比をなす——「ドメイン知識・正確性」軸と「ドメイン知識不要・スケーラビリティ」軸**: CIRCA はアーキテクチャ知識(コールグラフ + ゴールデンシグナル分類)と回帰仮説検定 + 子孫調整で Oracle DB 99 件の実障害で AC@1=0.404(ベースライン最良比 +25%)を達成する。一方 RCD は障害を soft intervention としてモデル化し、F-NODE 近傍の局所学習 + 階層分割統治 Ψ-PC によって**コールグラフ不要・パラメトリック仮定不要**で 500 ノード 22 秒(対 Ψ-PC 150 分超)のスケーラビリティを実現した。両者の対比は後続研究の評価軸として定着し、[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] の包括評価では CIRCA を「障害時刻が正確なら強い、ドメイン知識依存」・RCD を「スケールするが実システムでは合成ベンチほど機能しない(Sock Shop AC@1=0.09)」として両極に位置づける。[[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] のマルチソース実験でも CIRCA(0.32→0.06)と RCD(0.09→0.10)が同じく無改善か悪化する系統的傾向が確認され、**「ドメイン知識軸 vs スケーラビリティ軸」は別系統だが、マルチモーダル拡張には共通して脆い**ことが明らかになった。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]], [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]], [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]]) - **RCD は障害を「介入」とする因果推論ベース RCA における第二の理論的基盤——CIRCA の「介入認識」と相補的**: CIRCA は介入認識(IR)を「親ノードへの条件付き分布の変化」(Theorem 3.4)として定式化したのに対し、RCD は同じ「障害=介入」観点に立ちつつ「観測データと介入データにまたがる分布不変性」(distributional invariance)を使い、F-NODE($F=0$ 正常 / $F=1$ 障害)を導入して $X \perp\!\!\!\perp F | Pa_X$ の条件付き独立性検定で根本原因でないノードを除外する。両者の対比: CIRCA は介入後の分布変化を**直接スコアリング**するのに対し、RCD は分布変化を**フィルタとして使ってグラフ探索を局所化**する設計。前者はグラフ全体を所与とする条件で高精度、後者は完全因果グラフ学習を避けることでスケールする。Pearl の Causal Hierarchy における L2 介入知識を実用化する 2 つの異なる戦略として、両論文は補完関係にある。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]], [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]]) - **RCD は本番クラウド障害でのケーススタディ(AWS 3 件)を最初に公開した因果推論ベース RCA、ただし潜在変数の存在で top-1 が崩れる失敗モードを実証**: RCD の論文は AWS 25 マイクロサービス・150 メトリクスの本番 3 障害(Outage A/B/C)で評価し、Outage A(オートスケーリング失敗)では top-2 内に DB メモリフットプリントを同定、Outage C(計測スコープ外の AWS コンポーネント障害)では「最近傍の影響ノード」を返すという**観測限界の境界条件**を明示した。Outage B では Memcached の hit ratio という潜在変数(latent confounder)の存在で top-1 を外し、Ψ-PC の交絡なし仮定が崩れる失敗モードを定量化している。本番評価ケース数の少なさ(3 件)は限界だが、その後の本番評価(例: [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] の Microsoft Transport)が「単一サービスドメインに特化した評価」へ移行する中で、RCD の AWS 評価は「ドメイン横断・潜在変数あり」という汎用 RCA の境界を最初に具体化した事例として位置づけられる。(Source: [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]], [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]]) - **CIRCA は Pearl の Causal Hierarchy Theorem を使って RCA を L2 介入知識に位置づけた最初の手法であり、後続の因果推論 RCA 研究の理論的基準点となる**: CIRCA(KDD 2022)は Pearl の因果の梯子(Ladder of Causation)の観測(L1)・介入(L2)・反実仮想(L3)の 3 層を RCA に明示的に当てはめ、「障害の根本原因を特定する」ことが L2 介入知識を要するタスク(介入認識, IR)であることを Corollary 3.3 と Theorem 3.4 で証明した。これは PC/PCMCI ベースの手法(CloudRanger・MicroCause)が観測データ(L1)に限定されること、および Sage(ASPLOS 2021)が L3 反実仮想を必要とすることをそれぞれ理論的限界として定位する。[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] は CIRCA の実験的な位置づけを包括評価で再確認したが、理論的な階層整理は CIRCA の固有貢献であり先行研究に見当たらない。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **ドメイン知識ベースのグラフ構築(CIRCA の Structural Graph)と統計的グラフ構築(PC 系)では、根本原因スコアリング手法との相性が体系的に分かれる**: CIRCA の Figure 3 は、DFS 系・CIRCA スコアリングはドメイン知識ベースの Structural Graph と最も相性が良く(AC@5 改善)、ランダムウォーク系(RW-Par/RW-2)は PCTS と相性が良いが時間コストが 24.7 秒対して CIRCA は 0.578 秒という対比を示す。[[@2018__TNSM__Mining Causality of Network Events in Log Data]] が G-square 対 Fisher-Z の選択をデータ密度に基づいて論じたのと同様、グラフ構築手法の選択はデータ特性(連続/離散、密/疎)だけでなくスコアリング手法との相性に依存することを CIRCA は実験的に定量化した。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]], [[@2018__TNSM__Mining Causality of Network Events in Log Data]]) - **PC アルゴリズムはネットワーク syslog（2018 年）とマイクロサービスメトリクス（2024 年）の両ドメインで因果推論 RCA の中核ツールだが、データの疎密がどの条件付き独立性検定を使えるかを決める**: [[@2018__TNSM__Mining Causality of Network Events in Log Data]] はスパース二値 syslog に対して PC + G-square が Fisher-Z より大幅に優れる（クラスタリング係数低・最大クリーク小・偽陽性比率 1.1% 以下・タイムアウトなし）ことを定量化した。一方 [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] では連続メトリクス（CPU/レイテンシ等）を対象とした同じ PC 系手法が辺方向推定を共通ボトルネックとして持つことを示す。**スパースデータ = G-square（二値・情報理論）、連続データ = Fisher-Z または相関ベース** という使い分けが経験則として確立しており、データ特性を無視して検定を選ぶと偽陽性が爆発するか（Fisher-Z on syslog）辺方向が壊れるか（PC on 大規模メトリクス）という異なる失敗モードに陥る。(Source: [[@2018__TNSM__Mining Causality of Network Events in Log Data]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **因果推論ベース RCA は前処理の設計が精度を左右する、という点でドメインを超えて一致する**: ネットワーク syslog では全メッセージの 93% が周期的イベント（cron・NTP 等）で、これを除去しないと PC アルゴリズムが偽陽性エッジを大量生成する（[[@2018__TNSM__Mining Causality of Network Events in Log Data]]）。マイクロサービスメトリクスでは大規模グラフ（50 ノード超）での計算爆発と合成データの現実乖離が全手法の共通課題となる（[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]）。どちらも「因果探索アルゴリズム自体」ではなく、入力データの前処理・分割・絞り込みが出力品質の支配因子であり、**アルゴリズム選択より入力設計が先に考慮されるべき**という横断的な設計原則が成立する。(Source: [[@2018__TNSM__Mining Causality of Network Events in Log Data]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **因果発見アルゴリズムの理論的基盤（忠実性仮定・スケーラビリティ・識別可能性）は RCA 適用時の失敗モードを体系的に説明する**: Glymour+ 2019 の体系化を RCA 文脈に照らすと、(1) PC が「数万変数で動く」のは疎グラフ+線形ケースの条件付きであり、マイクロサービスの密結合グラフでは前提が崩れる、(2) LiNGAM の非ガウス仮定はクラメール分解定理により線形関係下で自然だが、RCA 応用ではメトリクスの正規化処理（ログ変換・z正規化）がガウス性を人為的に導入しうる——これは fMRI でハイパスフィルタが非ガウス性を除去して LiNGAM 系を無力化する問題と同型、(3) FCI は交絡変数を扱えるが RCA パイプラインでは PC が圧倒的に普及しており、本番の観測スコープ境界にある潜在変数への理論的対処が欠落する。Pham+ (ASE 2024) の「Dummy を超えない手法が多い」知見は、忠実性仮定違反や前処理による分布歪みという理論的経路から部分的に説明できる。(Source: [[@2019__Frontiers in Genetics__Review of Causal Discovery Methods Based on Graphical Models]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **RCA で使われる連続最適化手法（DAG-GNN / NOTEARS 系）は元来低次元（<100 変数）でしか評価されておらず、マイクロサービスの数百〜数千メトリクスへの適用は理論的にも実験的にも未検証**: Vowels+ 2022（Table 2）によれば、DAG-GNN は Sachs 11 変数データセットで評価され、NOTEARS 系の大半も 100 変数未満で検証されている。CausalRCA が DAG-GNN を RCA に適用したのは、この低次元手法を暗黙裡に高次元へ外挿した試みであり、「Dummy を超えない手法が多い」という Pham+ 2024 の知見を説明する一因となりうる。LEAST（2020）の O(d) 非巡回性制約は 160,000 変数にスケールするが、RCA パイプラインへの統合は未着手。(Source: [[@2022__CSUR__D'ya Like DAGs - A Survey on Structure Learning and Causal Discovery]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **SCM（DirectLiNGAM）と Granger 因果性の役割分担が同時効果・時間遅れ効果の両方を捕捉する設計上の解答を提供する**: MicroDiag（CloudIntelligence 2021）は、リソースメトリクス間の同時効果を SCM（DirectLiNGAM）で、リソース→サービス間の蓄積効果を Granger 因果性で、それぞれ担当させ、Granger 検定の偽陽性を SCM 結果で較正するという3層設計を採用した。純 Granger 系（Loud）が同時効果を見逃し、PC 系（CauseInfer）が同時効果の推定精度が低い問題を、**手法の役割分担**で解決している。[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] が指摘する「辺方向推定がボトルネック」という問題に対し、MicroDiag はコンポーネント依存グラフによる**探索空間の事前絞り込み**で迂回する戦略をとる。(Source: [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **コンポーネント依存グラフによる探索空間制限が偽陽性因果関係削減の主要メカニズムとして CauseInfer と設計思想を分岐させる**: CauseInfer はサービスごとに独立したメトリクス因果グラフを構築するため「どのサービスから探索を開始するか」という問題が残り、サービス間の関係はサービス依存グラフで補う設計。MicroDiag は全コンポーネント（サービス・コンテナ・サーバ）を統合した依存グラフを先に構築し、**依存関係のあるコンポーネント間のメトリクスにのみ**因果推論を適用することで計算量と偽陽性を同時に削減する。同一サーバ上でのリソース競合など呼び出しグラフに現れない横断的依存も捕捉できる点が MicroDiag の固有寄与。(Source: [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]]) - **FluxInfer の「有向性推定を捨てる」転換は辺方向ボトルネックへの直接解答である**: FluxInfer（Liu+ IPCCC 2020）は DB メトリクス間の依存を重み付き無向依存グラフ（WUDG: Pearson 相関 + 相関変化量で重み付け）として構築し、PageRank で根本原因メトリクスをスコアリングする。PC/Granger/NOTEARS/CauseInfer/CloudRanger/Microscope/AutoMAP/MicroScope の PC 系 8 手法を AC@3 で 2〜15 倍上回った。「因果グラフの辺方向推定がボトルネック」（Pham+ ASE 2024）に対し、方向を推定しないことで精度を得た唯一の反証例。ただし無向グラフは因果的介入の解釈を放棄するため、CIRCA/RCD 系の「なぜそのノードが原因か」の因果的説明可能性とはトレードオフ関係にある。PyRCA ライブラリは FluxInfer を含む多数のスコアリング手法を統合しており、有向/無向の選択をユーザーに委ねる設計。(Source: [[@2020__IPCCC__FluxInfer - Automatic Diagnosis of Performance Anomaly for Online Database System]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]], [[@2023__arXiv__PyRCA - A Library for Metric-based Root Cause Analysis]]) - **PyRCA は因果推論ベース RCA の手法群を初めてオープンソース統合ライブラリ化し、「グラフ構築 × スコアリング」の組み合わせ比較を構造化した**: PyRCA（Liu+ arXiv 2023）は因果グラフ構築 5 種（PC/GES/FGES/LiNGAM/NOTEARS）とスコアリング 6 種（ε-Diagnosis/BARO/RW/PageRank/MicroHECL/HT）をプラグインとして提供し、ベンチマーク用合成データ生成器も含む。シミュレーション評価で Hypothesis Testing（HT）は Recall@1=1.00 を達成する一方、PC >> GES でグラフ構築品質（F1: 0.78 vs 0.45）が結果を律速する。RCAEval（WWW Companion 2025）が RCA のベンチ統合を進める中で、PyRCA はアルゴリズム比較の単位を「パイプライン全体」から「グラフ構築モジュール × スコアリングモジュール」に分解する寄与を持つ。(Source: [[@2023__arXiv__PyRCA - A Library for Metric-based Root Cause Analysis]], [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]]) - **PCTS（MicroCause, IWQoS 2020）は「iid 仮定なし PC」による時系列因果グラフ構築の最初の AIOps 応用であり、伝播遅延を捉えられないことが PC ベース手法の共通ボトルネックであることを実験的に示した**: MicroCause は改良 PC（PCMCI、Runge+ Science Advances 2019）を RCA パイプラインに初めて組み込み、最大ラグ $\tau_{max}$ のスライディングウィンドウで時系列間の時間遅れ因果エッジを構築する。PCTS vs PC の比較（Table IV）では AC@5 が 93.6% → 98.7%（+5.1%）と改善し、決定的な差は PC が孤立サブグラフを生成してランダムウォークが根本原因に到達できなくなる点にある。これは Pham+ ASE 2024 が「辺方向推定がボトルネック」と指摘した問題の別経路——「グラフ連結性の喪失」——が 2020 年の時点で観測されていた証拠であり、PC ベース手法の実用限界の早期文書化とみなせる。ただし Pham+ 2024 は同じ MicroCause を「Dummy を超えない手法群」に含めており、小規模評価（86 件・64 メトリクス）の楽観的結果と大規模ベンチマーク（Train Ticket 212 メトリクス、2 時間制限超過）での性能崩壊の乖離を示す。(Source: [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **偏相関（Partial Correlation）によるコンファウンダー除去は相関ベースランダムウォークの根本的問題を指摘したが、スケーラビリティの代償が大きい**: MicroCause の TCORW は「相関 ≠ 因果」（論文 citation [19][20]）という原則に基づき、Pearson 相関ではなく偏相関 $R_{pc}$ を遷移確率の基底として採用した。FluxInfer（IPCCC 2020）が「有向性推定を捨てて無向 + Pearson 相関」で同年に SOTA を達成したのと対比的な設計選択——FluxInfer は偏相関（因果的正しさ）を捨てて速度と精度を得、MicroCause は偏相関（因果的正しさ）を維持して速度を犠牲にした。Pham+ ASE 2024 の大規模ベンチでは MicroCause が 2 時間制限超過になっており、この設計トレードオフが実用的な差を生んだ。(Source: [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]], [[@2020__IPCCC__FluxInfer - Automatic Diagnosis of Performance Anomaly for Online Database System]], [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **Dummy ベースラインを超えない手法が多数存在する**: PC/FCI/Granger/LiNGAM/fGES/NTLR-PageRank/ランダムウォーク、CausalAI、RUN、MicroCause の多くは、ランダム選択（Dummy）と同等以下の精度を示す。この知見は Pham et al. (ASE 2024) が Dummy ベースラインを初めて導入して発見したもので、先行研究が因果探索手法を過大評価してきた可能性を示唆する。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **因果グラフ不要の BARO が FSE 2024 で 3 ベンチマーク全てで既存因果グラフ手法を上回り、「RCA の精度律速は辺方向推定よりも異常検知時刻への非感度性にある」という新たな観察を提供した**: [[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]](Pham+ FSE 2024)は、多変量 BOCPD + RobustScorer(中央値・IQR ベース)の組み合わせで Online Boutique/Sock Shop/Train Ticket の粗粒度 Avg@5 を 0.86/0.95/0.81 と達成し、CausalRCA(0.80/0.60/0.28)・CIRCA[N-Sigma](0.66/0.78/0.67)・RCD[best](0.48/0.48/0.08)を一貫して上回った。特に Train Ticket(64 サービス・212 メトリクス)では RCD が Dummy(0.07)と同等(0.05〜0.08)に落ちる一方 BARO は 0.81 を維持した。感度分析では N-Sigma と CIRCA が遅延検知(t_bias=+20)で Avg@5 が半分以下に落ちるのに対し、BARO の変動は 25% 以内に留まった。これは Pham+ ASE 2024 の「辺方向推定がボトルネック」という観察を補完する形で、「異常検知時刻のずれへの頑強性が設計要件として因果グラフ精度と同等か、それ以上に重要である」という新たな観察を提供する。また RobustScorer の実行時間は 0.01 秒で、CausalRCA(299 秒)・CIRCA(13 秒)より大幅に高速であり、実用面での優位性も明確。(Source: [[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]], §4.6〜4.8, Tables 3-4, Fig. 5) - **合成データセットの性能は実システムを反映しない**: 合成データで高性能な RCD が CIRCA 合成データでは低性能。実システムで高性能な CausalRCA が合成データでは低性能（RCD10 での Avg@5 が 0.1）。この乖離は、合成データ生成器（RCD 生成器は条件確率を変化させてフォルトを注入するが、実際の障害は CPU スパイク等の連続的な変化をとる）の現実乖離に起因する。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]])、([[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]) - **辺方向推定が因果グラフベース手法全般の共通ボトルネック**: 全 9 種の因果探索手法で F1（方向考慮）は F1-S（骨格のみ）を系統的に下回る。グラフ規模が大きくなるほど差が拡大し、PCMCI の 50 ノードでの SHD は 1,000 を超える。因果グラフを前提とした RCA の性能低下はグラフ構築の失敗に直接起因する。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **仮説検定系（BARO・NSigma・CIRCA）は正確な障害時刻があれば因果グラフ構築を迂回して高精度を達成する**: BARO は Train Ticket（212 メトリクス）でも CPU=0.90・MEM=0.96 の Avg@5 を達成。しかし NSigma・CIRCA は 60 秒の誤差で大幅悪化する。BARO の頑健性は中央値/IQR 利用によるものであり、平均/標準偏差を使う NSigma・CIRCA との設計差が性能差を生む。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **大規模グラフ（50+ ノード）では全手法が実用的な精度・効率を失う**: Train Ticket（212 メトリクス）で MicroCause・RUN・NTLR 系は 2 時間制限を超過。CIRCA は 3792 秒、CausalRCA は 1326 秒かかる。本番の数百〜数千サービス環境は現在の全手法にとって未解決の課題である。([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **マルチソース化(ログ・トレース統合)は因果推論系手法を単純には改善しない**: [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] は CIRCA・RCD のマルチソース改造版(著者が時系列ログ/トレースを扱えるよう拡張)を提供したが、Train Ticket / RE2 の 6 障害平均で CIRCA: メトリクス単独 AC@1=0.32 → マルチソース 0.06、RCD: 0.09 → 0.10 と、ほぼ無改善か悪化する手法が大半。例外として BARO はメトリクス 0.67 → マルチソース 0.69 と維持(LOSS で +0.14)、PDiagnose は元々マルチソース設計で 0.48 を達成。因果グラフ系手法はモダリティ追加によりノイズが増え、辺方向推定の既存ボトルネック([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] の F1 < F1-S)が悪化する可能性。仮説検定系(BARO)はモダリティ拡張に頑健で、因果探索系より統合に向く。(Source: [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] §5, Table 6) - **トレース系手法(TraceRCA)が因果推論系メトリクス手法と並んで強い、という新たな比較軸**: 同じ Train Ticket / RE2 で、TraceRCA はメトリクス系の単独最強 BARO とほぼ同等(AC@1: TraceRCA 0.66 vs BARO 0.67)で、ネットワーク障害では BARO を超える(DELAY: 0.85 vs 0.47)。因果推論ベース RCA がメトリクス時系列の DAG 推定で根本原因を絞るのに対し、トレース系はサービス呼び出し関係のスパン情報を直接使う——「因果関係を推定する」(causal discovery)vs「明示的な呼び出し関係を読む」(trace structure)の対比が、ベンチで定量化された。(Source: [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]] Table 6) - **LagRCA(FSE Companion '26)は MicroCause の PCTS(2020)以来「時間遅れを明示的に扱う」問題意識を継承しつつ、PC 系条件付き独立性検定からニューラルなラグ条件付きアテンションへ設計を転換した**: MicroCause の PCTS は PCMCI ベースの最大ラグ τ_max スライディングウィンドウで時系列間の時間遅れ因果エッジを構築し、AC@5 を PC 比 93.6%→98.7%(+5.1%)改善した最初の AIOps 応用だった([[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]])。LagRCA は同じ「固定ラグでは伝播を捉えられない」という診断から出発しつつ、D1(46 インスタンス・本番銀行データ)の実インシデント統計で最大伝播ラグ Δt_max が 2 分以上の非同期伝播を示すインシデントが 81.5%を占めることを定量化した上で、離散スケルトン M と連続強度 W を分離した低ランクパラメータ化(A_t^(τ)=M_t^(τ)⊙W_t^(τ))とラグ条件付きクロスノードアテンションで因果グラフを学習する。PC 系の辺方向推定ボトルネック([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]])を回避しつつ「時間遅れの明示的モデリング」という同じ目標を達成した点で、因果推論ベース RCA における時間遅れ対処の系譜(MicroCause→LagRCA)を形成する。(Source: [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]], [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]]) - **LagRCA の「上流調整(Upstream-Adjusted Root Cause Inference)」は BARO とは異なるメカニズムで victim-dominance/被害者過大評価問題に対処する**: BARO(FSE 2024)は中央値/IQR ベースの RobustScorer によって異常検知時刻のずれへの頑強性を実現した([[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]])。一方 LagRCA はマルチラグ因果グラフを指数減衰で集約した影響行列 G_t を使い、各インスタンスの期待伝播誤差 p_{t,i} を上流近傍から計算して s_{t,i}=ReLU(r_{t,i}−β·p_{t,i}) として明示的に差し引く。LagRCA のアブレーション(c4: 上流調整除去)では D1 AC@1 が 0.667→0.547 に低下し、下流の受動的影響サービスの過大ランキングを防ぐ上でこの機構が必須であることを実証した。BARO が「頑健な統計量で誤差そのものを減らす」のに対し、LagRCA は「因果グラフを使って説明可能な分を明示的に差し引く」という設計対比をなす。(Source: [[@2024__FSE__BARO - Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection]], [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]]) - **1 ウィンドウ 30 タイムスタンプという極端な小サンプル設定では、Granger/PC/FCI/LiNGAM/NTLR の全てが Accuracy@1・@10 とも完全に 0 に崩壊することが独立に確認された**: [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] は Train Ticket(212 メトリクス)で MicroCause・RUN・NTLR 系が 2 時間制限を超過するという規模面の性能崩壊を報告したが、[[@2026__arXiv__How Far Can Root Cause Analysis Go on Real-World Telemetry Data?]] は同じ因果発見アルゴリズム群([[OpenRCA]] Market cloudbed-1、コンテナ/ノード/サービスメトリクスに適用)を評価し、Accuracy@1・Accuracy@10 が全手法・全メトリクスソースで文字通り 0 になるという、より極端な失敗を実証した。原因はサンプルサイズ(30 観測点)と次元数(コンテナソースで前処理後 640 列)のミスマッチであり、条件付き独立性検定・因果パラメータ推定が統計的に不安定になって推定グラフが支配的・下流メトリクスに収束する。この結果は「入力設計がアルゴリズム選択に先行する」という本 concept の既存知見(§横断的知見冒頭)を、時間的余裕(実行時間制限超過)の問題ではなく**精度そのものの完全崩壊**として再確認するものであり、OpenRCA のような 30 分ウィンドウ・多モダリティ・低サンプル設定は現行の因果推論ベース RCA 手法の適用限界を最も極端な形で示すベンチマークとして位置づけられる。(Source: [[@2026__arXiv__How Far Can Root Cause Analysis Go on Real-World Telemetry Data?]] Table II, §V-A, [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]]) - **ドメイン知識オントロジー(観測・リスク・障害・アクション)による意味的次元削減は、CIRCA のコールグラフ知識・RADICE の部分ドメイン知識とは異なる「変数空間そのものを圧縮する」ドメイン知識活用法である**: 本ページの既存事例(CIRCA・RADICE・Lohse et al.)はいずれもドメイン知識をグラフ構築の**制約**(構造グラフ生成・探索範囲限定)として使うのに対し、[[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]](Chraim+, AWS)は自動化オントロジー(14障害カテゴリ×11アクションカテゴリ×185層)によって変数を意味的にグループ化し、4,810 次元の変数空間を**構築前**に圧縮する。これは「入力設計がアルゴリズム選択に先行する」という本ページの横断的知見(§冒頭)を、統計的前処理(除去・削減)ではなく**オントロジー的グループ化**という新しい経路で裏付ける事例である。さらにスパティオテンポラルグループ化(X ホップ・Y 分)によってインシデント単位に変数組み合わせのテストを限定し、76,595 変数ペアという規模でも二変量 Granger + 条件付き独立性検定が実行可能になっている。(Source: [[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]]) ## 未解決の問い - **OpenRCA のような極小サンプル(30 タイムスタンプ)設定で因果推論ベース RCA を機能させるための前処理・代替手法は未確立**: [[@2026__arXiv__How Far Can Root Cause Analysis Go on Real-World Telemetry Data?]] は既存の因果発見アルゴリズム 5 種が全て Accuracy@1/@10=0 になることを示したが、サンプル数を増やす代替戦略(複数ウィンドウの結合・転移学習・ベイズ事前分布の活用)や、因果グラフを介さない仮説検定系手法(BARO・NSigma)を OpenRCA に適用した場合の性能は本論文で検証されていない。因果推論ベース RCA が原理的にこの設定で機能しうるのか、それとも根本的に別のアプローチ(構造化 LLM 推論)が必要なのかは未解決。(Source: [[@2026__arXiv__How Far Can Root Cause Analysis Go on Real-World Telemetry Data?]] §V-A) - **LagRCA と PC 系ラグモデリング(PCTS/MicroCause)の直接比較が未実施**: LagRCA のベースライン比較には MicroCause が含まれる(D1 AC@1=0.080 と低性能)が、これは Pham+ ASE 2024 が指摘した MicroCause の大規模ベンチマークでの性能崩壊と整合的である一方、両手法の「時間遅れモデリング」という設計思想レベルでの比較(PCMCI ベース vs ニューラルアテンションベース、どちらがラグ推定の精度で優れるか)は行われていない。(Source: [[@2026__FSE Companion__Bridging the Delay - Lag-Aware Spatio-Temporal Causal Inference for Microservice Root Cause Analysis]]) - **前処理による因果経路の欠落**: 同一コンポーネント内のクラスタリングと時系列削減が、原因から症状への必要なノード・経路をどの程度失わせるか。削減率、診断時間、根本原因ランキング精度を同じ障害集合で同時に測る評価が必要である。(Source: [[@2022__SRE NEXT 2022__AIOps研究録―SREのためのシステム障害の自動原因診断]], p.32–33, p.46–47) - **Graphical Causal Reasoning と NetCause の直接比較(同一評価データでの手法対手法の性能比較)は未実施**: 両論文は異なる31件・35件のラベル付きインシデントセットで独立に評価されており、同一のインシデント集合上で「明示的因果グラフ+経路尤度」対「学習ワールドモデル+反実仮想ロールアウト」を直接比較した研究は存在しない。また NetCause の TCI が Graphical Causal Reasoning の学習済み因果グラフ(サイクルを含み一部ドメイン知識と矛盾するエッジを持つ)を補正・検証する用途に使えるか、逆に Graphical Causal Reasoning の解釈可能な因果グラフが NetCause のR-GCN学習に構造的事前知識として使えるかは、両論文とも検討していない。(Source: [[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]], [[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]]) - **NetCause の反実仮想シミュレーションの unconfoundedness 仮定は、[[介入的因果学習]]がマイクロサービスで実証した「介入自体が交絡変数を生む」問題(Jha et al. DSN-S 2024の負荷分布変化)がネットワークドメインでも成立するかを検証していない**: NetCause は候補仮説を除去した反実仮想系列をロールフォワードする際、観測動態のunconfoundednessを仮定する(脚注2)。しかしJha et al.が示したLoad Invarianceの破れ(障害注入が負荷の定常分布自体を変化させる)と類似の現象——例えばネットワークの制御プレーン障害がトラフィック迂回を誘発し観測される信号分布を変化させる——がネットワークドメインで起きうるかは NetCause 論文内で検証されていない。(Source: [[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]]) - **RCD の Ψ-PC は交絡なし(causal sufficiency)仮定に依存しており、潜在変数を含む本番システムでの限界が未解決**: RCD の Outage B 評価では Memcached の hit ratio という観測不可能な潜在変数が top-1 失敗の原因となった。Ψ-FCI(latent confounder を扱える PC 変種)への拡張は将来課題とされたが、その後 2025 年時点でも公開実装は存在しない。[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] は Ψ-PC のスケール限界(500 ノードで 150 分超)を再確認したが、潜在変数の影響を体系的に評価した研究は未着手。本番システムは観測スコープの境界に必ず潜在変数を持つため、Ψ-FCI 系手法の実装と評価が因果推論ベース RCA の次のマイルストーンとなる。(Source: [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]]) - **RCD の分割統治パラメータ $\gamma$(サブセットサイズ、デフォルト 5)の最適値は実験では固定されたまま未解明**: RCD のアルゴリズムは Algorithm 1 で全変数をサイズ $\gamma$ のランダムサブセットに分割するが、$\gamma$ がノード数・障害種別・グラフ密度に応じてどう変化するかの体系的探索は付録のみで簡単に扱われている。CIRCA がドメイン知識ベースの構造グラフで「サブセット」概念を必要としないのに対し、RCD はドメイン知識を捨てた代わりに $\gamma$ という構造的ハイパーパラメータを抱える。$\gamma$ のチューニングがシステム規模・トポロジ・障害伝播パターンとどう連動するかは、RCD 系手法の実用化に必要な詳細設計。(Source: [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]]) - **CIRCA の子孫調整(Descendant Adjustment)は Oracle DB データセット 1 件でのみ検証されており、多様な実システムへの汎化性が未確認**: CIRCA のアブレーション実験(Table 4)では子孫調整が AC@1=0.328 → 0.404 に大きく寄与するが、この効果は 99 件の高 AAS 障害を含む 1 つの実世界データセット D_O のみで測定されている。[[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]] の包括評価では CIRCA(障害時刻正確時)が他手法と比較されたが、子孫調整の効果をデータセットを変えて測定した研究は存在しない。子孫調整の効果がシステム規模(197 対数千メトリクス)・障害種別(データベース対マイクロサービス)・障害時刻の誤差に対してどう変わるか未解決。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]]) - **Pearl の Causal Hierarchy における L2 介入知識が実際の観測データから導けるか、という理論的ギャップ**: CIRCA は IR タスクが L2 に属することを証明したが、正常分布 L1 の不完全な観測(Figure 1 の分布重複問題)が L2 知識の推定精度をどこまで劣化させるかは理論的に未確立。RHT が仮定する「正常期間のリニアな回帰モデル」が崩れるトラフィックスパイク・季節性・コールドスタート等のシナリオでは、L2 → L1 の降格(観測ベース手法への劣化)が起こるか定量化されていない。(Source: [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]]) - **ネットワーク syslog への適用でリアルタイム処理が課題**: Kobayashi+ 2018 は通常 50 秒 DAG 生成だが障害時に 600 秒超となる。障害箇所特定技術との組み合わせが必要とされるが、その具体的な統合アーキテクチャは未設計。(Source: [[@2018__TNSM__Mining Causality of Network Events in Log Data]]) - **MicroDiag のコンポーネント依存グラフ構築は Istio + Cadvisor の標準スタック前提であり、他の監視スタック（OpenTelemetry 等）への汎化が未検証**: Istio のサービスメッシュとCadvisorのデプロイ情報を解析してグラフを動的構築するが、これは Kubernetes + Istio 環境に依存した設計。サービスメッシュを使わない環境や OpenTelemetry 統合環境での DG 構築方式は未設計。(Source: [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]]) - **MicroDiag の Memory Leak での PR@1=33% という低精度は、メモリリーク障害の「複数メトリクスへの分散」と「監視間隔の粗さ」の相互作用を示すが、その詳細な分解は未実施**: 論文は原因を 2 点挙げるが、どちらの要因がどれだけ寄与するか（監視間隔を短縮すれば改善するか、SCM の非ガウス仮定がメモリ系メトリクスに適合するか）の体系的実験は行われていない。(Source: [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]]) - **MicroCause の「メトリクス優先度レベル（Level 1/2/3）」はマイクロサービス固有のドメイン知識であり、他のシステム種別（DB・ネットワーク・ML クラスタ）への汎用化方法が未確立**: MicroCause は上流 QPS（Level 1）・JVM/システム/下流 QPS（Level 2）・下流 RT/成功率（Level 3）という 3 層を固定設定し、アルゴリズムの最終ランキング（Algorithm 1）で優先度を使う。この分類はマイクロサービスの伝播方向の知識に基づくが、FluxInfer（DB システム）・MicroDiag（コンポーネント依存グラフ）・MonitorRank（API 呼び出しグラフ）はいずれも同等のドメイン知識を異なる形式で組み込んでいる。優先度情報のない環境（クラウドネイティブ以外・新規システム）で TCORW をそのまま使えるかは未検証。(Source: [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]]) - **入力メトリクス選択**: 大規模システムで有効なメトリクスサブセット選択手法は何か（[[MetricSifter]] の変化点検知 + 因果探索との統合可能性） - **時刻推定との統合**: BARO/CIRCA 等の時刻依存手法と異常検知器を統合したエンドツーエンドパイプラインはどう設計すべきか - **合成データ生成**: 実際のマイクロサービス障害パターン（CPU スパイク・リソース競合・連鎖障害）を模倣する生成手法は可能か - **LLM ベース手法との比較**: [[RCAgent]]・TAMO 等の LLM エージェントベース RCA は因果推論ベース手法と何が違い、どこで補完関係があるか - **辺方向問題の解決策**: 因果探索の辺方向推定を改善する手法（ドメイン知識の活用・コールグラフの利用）はどの程度有効か。RADICE のエントロピーベース方向付け（Entropic causal inference）はこの問題への一つの解答だが、マイクロサービス大規模グラフ（50+ ノード）での有効性は未検証。(Source: [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]]) - **モダリティ拡張時の頑健性**: BARO(仮説検定系)は単独/マルチソースで安定だが、CIRCA・RCD(因果グラフ系)は単独の方が高精度。因果グラフ系手法を「グラフ構築を共有 + モダリティ別スコアリング」のように分割設計したらマルチソース化の劣化を避けられるか。([[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]]) - **マイクロサービスメトリクスの前処理が因果探索の分布仮定を破壊する経路の定量化**: Glymour+ 2019 は fMRI のハイパスフィルタが非ガウス性を除去して LiNGAM 系を無力化すると報告した。マイクロサービス RCA でもメトリクスの正規化・平滑化・集約が PC の条件付き独立性検定や LiNGAM の非ガウス仮定に与える影響は未定量。「入力設計がアルゴリズム選択に先行する」という本ページの横断的知見を理論的経路から裏付ける検証が必要。(Source: [[@2019__Frontiers in Genetics__Review of Causal Discovery Methods Based on Graphical Models]]) - **RCD が Ψ-PC 拡張で解けなかった「観測不能 RCC(潜在変数)問題」を、LatentScope はデュアル空間グラフ + RLIR で実用化した**: RCD は AWS Outage B で Memcached hit ratio という潜在変数(latent confounder)の存在で top-1 を外し、将来の Ψ-FCI 拡張を課題に挙げた(Source: [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]])。2025 年時点でも Ψ-FCI の公開実装は存在しない一方、LatentScope(Xie et al., KDD 2024)は全く別のアプローチ——**RCC を明示的な潜在変数としてモデル化し、多対多 RCC-メトリクスリンク + 線形回帰で潜在変数の介入を推定する**——によって同じ問題を実用レベルで解決した。eBay の実証研究では根本原因の 63.59% が観測不能なサードパーティーサービスであり、このスケールで潜在変数問題が解決されたことは、「因果推論ベース RCA の残されていた最大の空白の一つが埋まった」と位置づけられる。潜在変数を「グラフの外にある交絡因子」として扱う RCD 系のアプローチと、「潜在変数を明示的なグラフノードとして組み込む」LatentScope のアプローチは、同じ問題に対する設計的対極として比較できる。(Source: [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]], [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]]) - **コードレベル障害(RCAEval F1〜F5)では因果推論ベースの数値が公開されていない**: RCAEval 2025 の予備実験はリソース 4 + ネットワーク 2 のみで、コードレベル障害(F1〜F5)での因果推論ベースの性能は GitHub のデモ任せ。コードレベル障害はメトリクス時系列の変化として現れにくい(レイテンシ・エラー率に依存)ため、因果推論ベース手法の適用上限を露呈する評価軸となるはず。([[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]]) - **因果推論ベース RCA とレイテンシモデリングは「目的」が異なる——RCA は「どのサービスが根本原因か」を、レイテンシモデリングは「なぜこのサービスが遅いか」を問う**: Lohse et al. (AAAI 2025 AICT) の2段階因果発見フレームワークは RCA を目的とせず、**レイテンシの因果的ドライバー（CPU制限・ポッド数・メモリ制限等）の同定**を目的とする。フル因果グラフ G には各マイクロサービスのリソースメトリクスノードが含まれており、これを SVR の特徴量に使うことで「どのリソースが高レイテンシの原因か」を回帰モデルで検証できる。RCA 文脈の既存研究（CIRCA・RCD・MicroCause 等）がすべてレイテンシ・エラー率といったサービスレベルメトリクスからの根本原因「サービス」同定を目的とするのに対し、Lohse et al. は因果グラフをリソースレベルの診断に応用する新しい利用パターンを示した。(Source: [[@2025__AAAI Workshop AICT__Causal Discovery for Cloud Microservice Architectures]]) - **ドメイン知識の制約化は「RCA のための正確な因果グラフ」と「レイテンシモデリングのための効率的な因果グラフ」の両方に有効な共通設計原則となりつつある**: CIRCA はコールグラフと黄金信号分類という2種のドメイン知識を構造グラフ生成に使い、Lohse et al. は5つの仮定（A1–A5: 同一サービス内エンドポイント間の呼び合いなし・リクエスト数の直接影響なし・リソース→レイテンシの一方向性・同一ホスト配置・自己サービス内影響限定）を探索空間の制約として実装した。両者の差異: CIRCA は正確な障害ノード同定のためにコールグラフ構造を事前知識として使うのに対し、Lohse et al. はコールグラフをゴールドスタンダードとせず、あくまで評価の近似基準として使いながらデータから因果グラフを発見する。「ドメイン知識の組み込み方」が RCA 系とレイテンシモデリング系で異なる設計上の分岐を示す。(Source: [[@2025__AAAI Workshop AICT__Causal Discovery for Cloud Microservice Architectures]], [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]]) - **RADICE の「根本原因因果サブグラフ」出力は、RCA が「何が根本原因か」から「どのように異常が伝播したか」へ移行するパラダイムシフトを示す**: CIRCA/RCD/BARO 等の先行手法はすべて根本原因の「集合」（ランキングまたはバイナリ判定）を出力するのに対し、RADICE は根本原因から性能メトリクスまでの因果伝播経路を含むサブグラフを出力する。実広告システムの事例では、このサブグラフが専門家のマニュアル分析と一致し、中間コンポーネントの役割を可視化した。ただし、このサブグラフの「正しさ」をどう評価するか（部分グラフの精度指標）は論文では平均再現率・適合率（根本原因の集合ベース）で測定しており、サブグラフ構造そのものの評価指標は未確立。(Source: [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]]) - **部分ドメイン知識は「完全知識か知識ゼロか」の二択を解消するが、「どれだけの部分知識が必要か」のガイドラインが欠如している**: RADICE の実験では、ノードレベル関数（高次因果関係）だけで再現率 +50%・適合率 +30% という大きな改善が得られ、有向エッジ追加によるさらなる改善は小幅（追加 10〜50% のエッジで +4〜+6% 程度）であることが示された。この「高次知識の効果 >> 個別エッジ知識の効果」という非線形性は、実務設計において「トポロジレベルの知識を先に取得すべき」という実践的ガイドラインを示唆するが、ノード数・グラフ密度・ドメイン特性ごとの定量的ガイドラインは未整理。(Source: [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]]) - **相関ベース手法（CoFlux）と因果発見ベース手法（PCMCI+）の「高相関だが偽陽性」問題を RADICE の精緻化フィルタが解消するが、精緻化ルールの設計はドメイン依存である**: 実広告システムの実験で RADICE は調整済み相関スコア > 0.75 の候補メトリクス（CoFlux が正として報告する）を精緻化ルール（fail rate の正の相関 → 根本原因でない）で除去した。この「高相関だが誤方向」という偽陽性パターンは Cooper (1998) 以来の「相関 ≠ 因果」命題の具体的な産業事例であり、精緻化ルールが「相関符号の期待方向」という弱い知識で偽陽性を除去できることを示す。ただし精緻化ルールは各メトリクス種別に個別定義が必要であり、新規システムへの汎化性が問題となる。(Source: [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]]) - **「単一異常サンプル」という最も困難な設定で初めて非パラメトリック保証が得られた——SMOOTH TRAVERSAL と SCORE ORDERING が示す因果 RCA の理論的フロンティア**: Orchard ら (NeurIPS 2025) は、因果グラフがポリツリーかつ根本原因が単一という仮定の下で、(1) 異常後分布のサンプルが 1 件のみ、かつ (2) 条件付き確率推定を一切行わず周辺異常スコアのみを使って根本原因を特定できることを証明した。SMOOTH TRAVERSAL（グラフ既知、閾値フリー）は Traversal [CauseInfer, Microscope] が必要とした「異常か否かの閾値設定」を排除し、SCORE ORDERING（グラフ未知）は Cholesky [Li+, 2024] が仮定した線形 SCM を必要としない。重要な点は、SCORE ORDERING が「スコアが高い変数から根本原因を探す」というよく使われる実務ヒューリスティックに対して初めて理論的正当化を与えたことであり、既存の全手法の中で入力要件が最も弱いにもかかわらず競合以上の性能を実験的に示した。「単一異常サンプル」という現実的制約がシステム障害の迅速な対応において一般的であることを踏まえると、この方向の理論的基盤は今後の AIOps RCA 研究の重要な出発点となる。(Source: [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]) - **同一チーム(AWS)が同時投稿した2本の姉妹論文が、「統計的因果発見」対「学習ベース反実仮想シミュレーション」という因果推論ベース RCA の二大設計軸を物理ネットワークドメインで直接対比させる**: [[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]]と[[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]]は、Fabien Chraim・Dominik Janzing・John Evans を共通著者とし2026-06-11に同時投稿された。前者は二変量 Granger 因果性 + 条件付き独立性検定で明示的な因果グラフ(サイクルを含む)を構築し、エッジ固有の時間ラグ条件付き確率の経路尤度最大値でランキングする(35件評価・完全一致74.3%・Recall@3 85.7%)。後者はR-GCN+RNNの生成的時空間ワールドモデルを自己教師あり学習し、候補仮説を除去した反実仮想系列をロールフォワードしてTotal Causal Influence(TCI)でランキングする(31件評価・完全一致35.5%)。前者は本番マイクロサービスRCAの因果探索系譜([[@2018__TNSM__Mining Causality of Network Events in Log Data]]のPC+G-square)の直系拡張で解釈可能な因果グラフを明示的に出力するのに対し、後者はワールドモデル(Ha & Schmidhuber)の哲学を反実仮想シミュレータとして転用し、因果グラフを陽に構築しない。同一問題・同一データ提供元(大手クラウドプロバイダの本番ネットワーク)・同一評価軸(完全一致精度)でありながら性能差(74.3% vs 35.5%)が大きく開いており、「明示的な因果グラフ構築 + 経路尤度」が「学習された暗黙的ダイナミクスモデル + 反実仮想ロールアウト」を評価件数の違い(35件 vs 31件)を割り引いても上回る可能性を示唆する。ただし両論文は評価ベンチマークが重複しない別個の35件・31件セットであり、直接比較には注意を要する。(Source: [[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]], [[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]]) - **NetCause は因果推論ベース RCA の適用ドメインをマイクロサービス(サービス依存グラフ)から物理ネットワークトポロジ(デバイス・サイト・メトロの階層グラフ)へ明示的に拡張した数少ない事例であり、Fig.1の実例(113ノード868エッジのサブグラフで根本原因が2ノードのみ)がドメイン特有の困難——因果的に関連するシグナルが2ホップの階層集約ノードを挟んで時間・空間・抽象レベルで隔たっている——を可視化する**: 本ページの既存知見はマイクロサービスメトリクス([[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]])とネットワーク syslog([[@2018__TNSM__Mining Causality of Network Events in Log Data]])の両ドメインを扱ってきたが、NetCauseはさらに物理層(ルータ・コントローラ・メトロ)を含む異種グラフ($\tau: V \to Q$でノード種別、$\phi: E \to R$で関係種別を持つ)を対象とする。R-GCNによる異種メッセージパッシングでこの物理・論理・階層構造を統一的に扱う設計は、[[グラフベースRCA]]のGrano(論理・物理2層トポロジ統合)と同じ問題意識をより表現力の高いGNNアーキテクチャで解いたものと位置づけられる。(Source: [[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]]) ## 関連 - [[因果発見]] — 基礎理論概念。PC・FCI・GES・LiNGAM 等の理論的基盤と識別可能性条件の体系 - [[根本原因分析]] — 上位概念。本概念はその統計・因果探索的アプローチを集約する - [[Fault Localization]] — 関連概念。箇所特定の目標は共有するがアプローチが異なる - [[異常検知]] — 前処理として因果推論 RCA のパイプラインに組み込まれることが多い - [[マイクロサービスアーキテクチャ]] — 適用対象ドメイン - [[AIOps]] — 上位フレームワーク - [[OpenRCA]] — 極小サンプル(30 タイムスタンプ)設定で因果推論ベース手法が完全崩壊するベンチマーク - [[グラフベースRCA]] — 兄弟概念。因果グラフ上のスコアリング/伝播手法を集約 - [[介入的因果学習]] — 兄弟概念。物理的障害注入による介入 vs NetCause の学習ワールドモデル反実仮想シミュレーションという2つの「介入」の実装アプローチ - [[NetOps]] — NetCause・Graphical Causal Reasoning はいずれも NetOps ドメイン(物理ネットワークトポロジ)への因果推論 RCA 適用例 ## 出典 - [[@2026__arXiv__NetCause - Counterfactual Learning for Root Cause Analysis in Large-Scale Networks]](Chraim & Zhang(共同筆頭), Janzing, Song, Faloutsos, Evans, AWS — IEEE ICCCN 2026 採録プレプリント。R-GCN+RNNの生成的時空間ワールドモデルと反実仮想シミュレーション(Total Causal Influence)による物理ネットワークRCA。31件評価で完全一致35.5%、ルールベース比+16.1pt) - [[@2026__arXiv__Graphical Causal Reasoning for Root Cause Analysis in Cloud Networks]](Chraim, Janzing, Evans, AWS — IEEE ICC 2026 採録プレプリント。クラウドネットワーク層の二値イベントに対する Granger 因果性 + 条件付き独立性検定 + 経路尤度最大化。自動化オントロジーによる意味的次元削減が新規。35件評価 Recall@3=85.7%、本番800件超投入) - [[@2026__arXiv__How Far Can Root Cause Analysis Go on Real-World Telemetry Data?]](Gopal & Krishnan, QPIAI India, arXiv 2026-07 — Granger/PC/FCI/LiNGAM/NTLR を OpenRCA Market cloudbed-1 に適用し Accuracy@1/@10 全 0 を実証、§V-A) - [[@2018__TNSM__Mining Causality of Network Events in Log Data]](Kobayashi et al., TNSM 2018 — ネットワーク syslog への PC + G-square 適用の先駆的論文) - [[@2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition]](Li et al., KDD 2022 — CIRCA: 介入認識による定式化、ドメイン知識ベースの構造グラフ + 仮説検定の系統) - [[@2022__NeurIPS__Root Cause Analysis of Failures in Microservices through Causal Discovery]](Ikram et al., NeurIPS 2022 — RCD: 階層分割統治と局所学習 Ψ-PC で完全因果グラフ学習を回避、500 ノード 22 秒) - [[@2024__ASE__Root Cause Analysis for Microservices based on Causal Inference - How Far Are We]](Pham et al., ASE 2024 — 包括評価の一次資料) - [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]](合成データの妥当性批判) - [[@2025__WWW Companion__RCAEval - A Benchmark for Root Cause Analysis of Microservice Systems with Telemetry Data]](§4.1 9 種のメトリクス系因果推論ベースライン整理、Table 6 Train Ticket / RE2 のメトリクス vs マルチソース版性能差) - [[@2019__Frontiers in Genetics__Review of Causal Discovery Methods Based on Graphical Models]]（Glymour, Zhang, Spirtes — PC/FCI/GES/LiNGAM/PNL の30年体系レビュー。因果推論 RCA で使われるアルゴリズム群の理論的基盤・仮定・識別可能性条件・スケーラビリティ制約を包括的に整理） - [[@2022__CSUR__D'ya Like DAGs - A Survey on Structure Learning and Causal Discovery]]（Vowels, Camgoz, Bowden — 連続最適化ベース因果発見手法約30件の包括サーベイ。DAG-GNN・NOTEARS 系が低次元でしか評価されていない事実を体系化し、RCA 応用の理論的制約を裏付ける） - [[@2021__CloudIntelligence__MicroDiag - Fine-grained Performance Diagnosis for Microservice Systems]]（Wu, Tordsson, Bogatinovski, Elmroth, Kao — SCM(DirectLiNGAM)+Granger 因果性+PageRank でメトリクス細粒度根本原因特定。コンポーネント依存グラフによる探索空間制限が設計の核心。Sock-shop PR@3=97%） - [[@2020__IWQoS__Localizing Failure Root Causes in a Microservice through Causality Inference]]（Meng, Zhang, Sun ほか — MicroCause: PCTS(PCMCI ベース時系列因果グラフ)+ TCORW(偏相関 + 異常度 + 優先度)。イントラマイクロサービス RCA を初定式化。86 件 AC@5=98.7%） - [[@2025__arXiv__RADICE - Causal Graph Based Root Cause Analysis for System Performance Diagnostic]]（Tonon, Zhang, Caglayan ほか, Huawei — PCMCI+ ベース + 部分ドメイン知識 + エントロピー方向付け + 調整済み相関スコア。根本原因因果サブグラフを出力する最初の手法。広告システムと N=5〜25 シミュレーションで評価） - [[@2025__AAAI Workshop AICT__Causal Discovery for Cloud Microservice Architectures]]（Lohse, Tsutsumi, Ba, Harsha, Subramanian, Straesser, Ruffini — IBM Research Europe/Watson — PCMCI+ + 5仮定ドメイン制約の2段階因果発見でレイテンシグラフを観測データのみから発見。「RCAではなくリソースレベルの因果的レイテンシドライバー同定」という新用途を開拓） - [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]（Orchard, Okati, Garrido Mejia, Blöbaum, Janzing — Cambridge/MPI/Amazon, NeurIPS 2025 — 単一異常サンプル・ポリツリー設定での非パラメトリック保証。SMOOTH TRAVERSAL（グラフ既知・閾値フリー）と SCORE ORDERING（グラフ不要）を提案。IT スコアとスコア典型性が理論的中核）