# LatentScope
[[Tsinghua University]] の [[Dan Pei]] グループ (NetManAIOps)、[[Nankai University]] の [[Shenglin Zhang]] と [[Yongqian Sun]]、eBay エンジニア、[[Microsoft]] の [[Minghua Ma]] らが KDD 2024 で発表したマイクロサービス根本原因分析(RCA)フレームワーク。eBay の本番マイクロサービス環境に導入済み。
コード: https://github.com/NetManAIOps/LatentScope
## 概要
マイクロサービス RCA において多くの根本原因候補 (RCC) は**直接監視できない**という「限定観測可能性 (Limited Observability)」問題を解く。eBay の実証研究では、根本原因の 63.59% がサードパーティーサービスであり直接メトリクスが存在しない。
従来手法は RCC を観測可能なものに限定していたが、LatentScope は**観測不能な RCC を潜在変数として明示的にモデル化**することで、この制約を突破する。
## 主要コンポーネント
### 二空間グラフ (Dual-Space Graph)
- **潜在 RCC 空間**: 観測不能も含めた全 RCC をノードとするグラフ
- **観測可能メトリクス空間**: 時系列メトリクスをノードとするグラフ
- **多対多 RCC-メトリクスリンク**: 先行研究の一対多リンクを多対多に拡張し、間接メトリクスの曖昧性を正式化
### RLIR (Regression-based Latent-space Intervention Recognition)
線形回帰ベースで潜在 RCC 変数を推定する 2 ステップアルゴリズム。理論保証として **RCC 解決可能条件 (RCC-S Condition)** を提示。
### LatentRegressor
RLIR の計算量 ($O(\#m \times \#rcc)$) とノイズ感度の 2 課題を解消する改良版。アップステップ(親交絡因子の候補化)とダウンステップ(冗長な交絡因子の除去)の 2 段操作で、ランダムウォーク並みの時間複雑度を実現。
## 性能
| データセット | ベースライン (CIRCA-Max) Top@1 Macro | LatentScope Top@1 Macro | 改善 |
|---|---|---|---|
| Dataset A (eBay 本番 66 件) | 0.4243 | **0.6302** | +48.6% |
| Dataset B (テストベッド) | 0.2804 | **0.4337** | +54.7% |
実行時間: 11.6 秒(LatentScope, RLIR Only=136.4 秒からの高速化)
## 関連
- ソース: [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]]
- 開発者: [[Dan Pei]] / [[Shenglin Zhang]] / [[Minghua Ma]] / [[Yongqian Sun]]
- 所属グループ: NetManAIOps ([[Tsinghua University]])
- 概念: [[根本原因分析]] / [[Fault Localization]] / [[AIOps]]