# LatentScope [[Tsinghua University]] の [[Dan Pei]] グループ (NetManAIOps)、[[Nankai University]] の [[Shenglin Zhang]] と [[Yongqian Sun]]、eBay エンジニア、[[Microsoft]] の [[Minghua Ma]] らが KDD 2024 で発表したマイクロサービス根本原因分析(RCA)フレームワーク。eBay の本番マイクロサービス環境に導入済み。 コード: https://github.com/NetManAIOps/LatentScope ## 概要 マイクロサービス RCA において多くの根本原因候補 (RCC) は**直接監視できない**という「限定観測可能性 (Limited Observability)」問題を解く。eBay の実証研究では、根本原因の 63.59% がサードパーティーサービスであり直接メトリクスが存在しない。 従来手法は RCC を観測可能なものに限定していたが、LatentScope は**観測不能な RCC を潜在変数として明示的にモデル化**することで、この制約を突破する。 ## 主要コンポーネント ### 二空間グラフ (Dual-Space Graph) - **潜在 RCC 空間**: 観測不能も含めた全 RCC をノードとするグラフ - **観測可能メトリクス空間**: 時系列メトリクスをノードとするグラフ - **多対多 RCC-メトリクスリンク**: 先行研究の一対多リンクを多対多に拡張し、間接メトリクスの曖昧性を正式化 ### RLIR (Regression-based Latent-space Intervention Recognition) 線形回帰ベースで潜在 RCC 変数を推定する 2 ステップアルゴリズム。理論保証として **RCC 解決可能条件 (RCC-S Condition)** を提示。 ### LatentRegressor RLIR の計算量 ($O(\#m \times \#rcc)$) とノイズ感度の 2 課題を解消する改良版。アップステップ(親交絡因子の候補化)とダウンステップ(冗長な交絡因子の除去)の 2 段操作で、ランダムウォーク並みの時間複雑度を実現。 ## 性能 | データセット | ベースライン (CIRCA-Max) Top@1 Macro | LatentScope Top@1 Macro | 改善 | |---|---|---|---| | Dataset A (eBay 本番 66 件) | 0.4243 | **0.6302** | +48.6% | | Dataset B (テストベッド) | 0.2804 | **0.4337** | +54.7% | 実行時間: 11.6 秒(LatentScope, RLIR Only=136.4 秒からの高速化) ## 関連 - ソース: [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] - 開発者: [[Dan Pei]] / [[Shenglin Zhang]] / [[Minghua Ma]] / [[Yongqian Sun]] - 所属グループ: NetManAIOps ([[Tsinghua University]]) - 概念: [[根本原因分析]] / [[Fault Localization]] / [[AIOps]]