# Microservice Root Cause Analysis With Limited Observability Through Intervention Recognition in the Latent Space
KDD 2024 論文。清華大学・南開大学・eBay・Microsoft・CNIC/CAS による共著。マイクロサービス RCA における**限定観測可能性(Limited Observability)**問題を正面から取り扱い、観測不能な根本原因候補(Root Cause Candidates, RCC)を潜在変数としてモデル化する非教師あり手法 **[[LatentScope]]** を提案した。eBay 本番環境に導入済み。
## 問題設定
マイクロサービス RCA は、障害の根本原因となる**根本原因候補 (RCC)** がポッド・サービス・ホスト・サードパーティーサービス・データベース・ソフトウェア変更と異種であるという「異種 RCC 問題」に加え、多くの RCC が**直接観測不能**という「限定観測可能性問題」を抱える。
eBay での 6 ヶ月の実証研究によると、根本原因のカテゴリ別割合は以下の通りである。
| カテゴリ | 割合 |
|---|---|
| サードパーティーサービス | 63.59% |
| 内部サービス | 8.76% |
| ソフトウェア変更 | 7.83% |
| データベース | 5.53% |
| ホスト | 11.65% |
| ポッド | 2.92% |
**63.59% を占めるサードパーティーサービスには直接メトリクスが存在しない**。これらを「間接メトリクス(他の RCC のメトリクスで間接的に観測するもの)」のみで分析しようとすると、間接メトリクスが複数の RCC を共有する曖昧さ(原因の特定が不可能)という根本的限界に陥る。
先行研究 CIRCA は障害を構造的因果グラフ上の介入(intervention)として扱う手法を提案したが、メトリクスレベルにとどまり潜在空間の RCC は扱えなかった。
## LatentScope の設計
### 二空間グラフ (Dual-Space Graph)
LatentScope は RCC を潜在変数として扱う**二空間グラフ**を構成する。
- **潜在 RCC 空間**: 観測不能な RCC をノードとするグラフ $G_{\text{RCC}} = (V_r, E_r)$
- **観測可能メトリクス空間**: メトリクスをノードとするグラフ $G_{\text{metric}} = (V_m, E_m)$
- **RCC-メトリクスリンク**: 潜在空間と観測空間を結ぶ**多対多**(many-to-many)リンク
先行研究が一対多(one-to-many)のリンクしか想定しなかったのに対し、LatentScope は多対多を明示的にモデル化する。これが限定観測可能性を解く鍵となる。
### 直接メトリクスと間接メトリクス
- **直接メトリクス**: ある RCC そのものを監視するメトリクス(完全観測可能な RCC のみ持つ)
- **間接メトリクス**: 他の RCC から観測される別の RCC に関連するメトリクス
サードパーティーサービスのような観測不能な RCC は間接メトリクスのみを持つが、間接メトリクスは複数の RCC を共有するため一意特定ができない。
### RLIR (Regression-based Latent-space Intervention Recognition)
潜在空間の RCC 変数を線形回帰で推定する 2 ステップアルゴリズム。
1. **回帰係数 $L_{i,j}$ の計算**: メトリクス $i$ が RCC $a$ と RCC $b$ の両方に属する場合、$i$ のうち $b$ に起因する割合 $L_{i,j}$ を線形回帰で推定
2. **RCC スコア代理 $M_{a,i}$ の計算**: $L_{i,j}$ から各 RCC の介入スコアを算出
理論的基盤として **RCC 解決可能条件 (RCC-S Condition)** を定義し、根本原因一意性と共通原因一意性の条件を満たせば潜在変数が一意に特定可能であることを証明した(定理 3.1)。
### LatentRegressor
RLIR の 2 つの課題(高い計算量 $O(\#m \times \#rcc)$・線形回帰のノイズ感度)を解消する改良アルゴリズム。各エッジに対して**アップステップ**(親の交絡因子を候補化)と**ダウンステップ**(冗長な交絡因子を除去)を行う 2 段階操作で、ランダムウォークに近い時間複雑度で精度を保つ。ランダムウォークは RCC グラフの複雑な関係を定量化するのが難しいが、LatentRegressor は潜在空間での介入認識によって精確な RCC スコアを算出する。
## 評価結果
2 つのデータセットで評価した。
- **Dataset A**: eBay 本番の 66 件の実障害(6 ヶ月)。300 以上のマイクロサービス・数十のデータベース・数百のソフトウェア変更・10 以上のサードパーティーサービスインタフェース・数十万の監視メトリクスを含む
- **Dataset B**: Online Boutique テストベッドで収集した障害。11 マイクロサービス、RCC はポッド・ホスト・サービス
評価指標は Top-k・MRR であり、カテゴリ別偏りを考慮したマクロ (Macro) 指標も使用。
**Table 2 抜粋 (Dataset A)**:
| モデル | Micro Top@1 | Macro Top@1 | Macro MRR |
|---|---|---|---|
| RandomWalk | 0.5606 | 0.1888 | 0.2117 |
| MonitorRank | 0.5000 | 0.2415 | 0.3228 |
| CIRCA-Max (ベストベースライン) | 0.4697 | 0.4243 | 0.6228 |
| **LatentScope** | **0.6154** | **0.6302** | **0.7430** |
**Dataset B (テストベッド)**:
| モデル | Micro Top@1 | Macro Top@1 | Macro MRR |
|---|---|---|---|
| CIRCA-Max (ベストベースライン) | 0.2159 | 0.2804 | 0.4537 |
| **LatentScope** | **0.3750** | **0.4337** | **0.6491** |
先行研究 CIRCA-Max に対して Macro Top@1 で Dataset A では **+48.6%** (0.4243→0.6302)、Dataset B では **+54.7%** (0.2804→0.4337) の改善。平均的な Top-1 リコールの改善幅は 9.7%〜57.9%。また LatentRegressor によって RLIR Only (136.4 秒) を **11.6 秒**まで高速化した。
## 主な貢献
1. eBay の実証研究で 63.59% の根本原因が観測不能であることを定量化した
2. RCC を潜在変数とするデュアル空間グラフを初めて提案した(多対多 RCC-メトリクスリンク)
3. RLIR と LatentRegressor で潜在変数の推定を実装し、精度・速度を両立した
4. eBay 本番環境への実適用を達成した
## 関連概念・文献との接続
[[根本原因分析]] の「観測の不完全性 = 第3の前提条件「完全性」」が本論文で初めて**定量化され手法的に攻略**された点が重要。[[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark|@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] が「観測ブラインドスポット(信号欠落・未監視層)」をベンチマーク設計の課題として指摘したのに対し、本論文は**限定観測環境でも動作する推論機構**を提案する実装側からの回答に位置づけられる。
## 関連
- ソース: [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]
- 概念: [[根本原因分析]] / [[Fault Localization]] / [[AIOps]] / [[マルチモーダル障害診断]]
- エンティティ: [[LatentScope]] / [[Dan Pei]] / [[Shenglin Zhang]] / [[Minghua Ma]] / [[Yongqian Sun]]
- コード: https://github.com/NetManAIOps/LatentScope