単一サンプルRCA - yuuk1's Digital Garden

# 単一サンプルRCA ## 定義単一サンプル RCA（Single-Sample RCA / one-sample anomaly RCA）は、**介入後の異常分布からのサンプルが単一 1 件のみ**という最も困難な設定での根本原因分析である。ビジネスアプリケーションでは障害を迅速に解決する必要があり追加サンプルを収集する時間がない。個別化医療では疾患患者ごとに固有の根本原因を想定するため事前にサンプルを集めることができない。こうした現実的動機から、観測データ（正常期間）は多数あるが、異常後分布のサンプルは 1 件のみという設定が要求される。(Source: [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]) > [!note] ワンショット RCA との区別 > [[ワンショットRCA]]（LasRCA 等）は**障害タイプごとのラベル付きサンプルが 1 件**という教師あり学習の希少ラベル設定。単一サンプル RCA は**異常後分布からのサンプルそのものが 1 件**という根本的に異なる統計的設定。前者は分類問題、後者は仮説検定・因果推論問題。 ## 主な手法と入力要件 | 手法 | 因果グラフ | SCM | 理論保証 | 主な仮定 | |---|---|---|---|---| | SMOOTH TRAVERSAL [Orchard+, NeurIPS 2025] | 必要（ポリツリー） | 不要 | 非パラメトリック | 連続分布・ポリツリー | | SCORE ORDERING [Orchard+, NeurIPS 2025] | 不要 | 不要 | 非パラメトリック | 連続分布・ポリツリー | | Traversal [CauseInfer, Microscope, ...] | 必要 | 不要 | なし | 閾値設定が必要 | | Circa [Li+, KDD 2022] | 必要 | 線形仮定 | なし | 線形 SCM | | Counterfactual [Budhathoki+, ICML 2022] | 必要 | **必要** | あり | SCM 全知識 | | Cholesky [Li+, 2024] | 不要 | 線形仮定 | なし | 線形 SCM | ## 横断的知見 - **条件付き分布の推定は低密度領域での不良設定問題を引き起こす**: 根本原因を特定するには変数 $X_j$ の因果機構 $P(X_j | PA_j)$ が変化したかどうかを確認する必要があるが、異常サンプルは定義上正常分布の低密度領域に位置する。そのため回帰モデルを低密度領域に外挿するか（統計的に不良設定）、条件付き確率を推定するためのサンプルが不十分か、という二重の困難が発生する。Orchard ら (NeurIPS 2025) は、因果 DAG がポリツリーであれば**周辺異常スコアのみ**で条件付きスコアの代わりに使えることを証明し、この困難を回避した。(Source: [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]) - **「スコアが小さい異常は大きな異常を引き起こしにくい」という直観は非パラメトリックに証明可能**: Orchard ら (NeurIPS 2025) の補題 3.3 は、スコア典型性の下で、弱い異常（スコア $S(x)$）が強い異常（スコア $S(y) > S(x)$）を因果的に引き起こす確率が $e^{-|S(y)-S(x)|_+}$ 以下であることを証明した。これは RCA の実務でよく使われる「最もスコアが高い変数が根本原因に近い」というヒューリスティックに初めて理論的正当化を与える。(Source: [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]) - **単一異常サンプルを扱える既存手法は統計的に不良設定**: RCD [Ikram+, NeurIPS 2022] は単一サンプルに対応を謳うが、実験では 100 サンプルを使用した比較結果のみが公開されており、その補足実験では少サンプル（<100件の異常サンプル）で性能が著しく低下することが示されている。ε-Diagnosis も複数異常サンプルを要する。(Source: [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]]) ## 未解決の問い - **ポリツリー仮定の緩和**: SMOOTH TRAVERSAL・SCORE ORDERING の保証はポリツリーに限定される。一般 DAG（サイクルを含まないが骨格は木でない）での非パラメトリック保証は未確立。付録 E では線形 SCM のケースで「スコアが下流で増大するケースは稀」という弱い結果が示されるが、非線形・非パラメトリックな一般 DAG への拡張は未解決。 - **複数根本原因への拡張**: 本設定は根本原因が単一であることを前提とする。稀少機構変化仮説（sparse mechanism shift hypothesis）に基づきこれを既定方針とするが、複数根本原因が同時に存在する場合の対処法は未定義。 - **正常期間のサンプル数との相互作用**: IT スコア推定の精度は正常期間のサンプル数 $k$ に依存する。PetShop データセットではサンプル不足により多数変数がスコアタイとなり手法の識別力が著しく低下する。実用的に必要な正常サンプル数のガイドラインが必要。 ## 関連 - [[因果推論ベースRCA]] — 上位概念。単一サンプル RCA は因果推論ベース RCA の困難な設定の一つ - [[情報理論的異常スコア]] — 単一サンプル RCA を可能にする異常スコア定義 - [[ワンショットRCA]] — 外見上似るが異なる問題設定（ラベル希少教師あり学習） - 関連 MOC: [[structures/AIOps - Fault Localization - MOC.md]] ## 出典 - [[@2025__NeurIPS__Root Cause Analysis of Outliers with Missing Structural Knowledge]](Orchard, Okati ほか, NeurIPS 2025 — 単一異常サンプル設定の明確化と非パラメトリック保証の主要論文)