# 限定観測可能性 ## 定義 限定観測可能性 (Limited Observability) とは、根本原因分析 (RCA) の文脈において、**根本原因候補 (Root Cause Candidates, RCC) の一部またはすべてを直接監視できない**状態を指す。 マイクロサービス環境では、障害の発生源となりうる候補として、ポッド・サービス・ホスト・サードパーティーサービス・データベース・ソフトウェア変更などの異種エンティティが存在する。このうちサードパーティーサービスやブラックボックス化されたコンポーネントは**直接メトリクスを持たない**。eBay での実証研究は、根本原因の **63.59%** がこのような観測不能なカテゴリに属するサードパーティーサービスであることを定量化した(Xie et al. 2024)。 ## 観測可能性の分類 | 観測の種類 | 説明 | |---|---| | **直接メトリクス** | RCC そのものを監視するメトリクス(完全観測可能な RCC のみ) | | **間接メトリクス** | 他の RCC を介して観測される、観測不能な RCC に関連するメトリクス | 間接メトリクスは複数の RCC を共有するため、どの RCC が異常の原因かを一意に特定できない**曖昧性**を持つ。 ## 問題の本質 ### 前提条件の崩壊 [[根本原因分析]] では従来、「観測可能なメトリクスに障害信号が必ず現れる」という暗黙の「完全性」前提があった。限定観測可能性はこの前提を崩す: - [[MetricSifter]] が示す「無関係メトリクスの削減(量)」 - [[TelecomTS]] が示す「スケール情報の保持(質)」 - Xie et al. 2024 が示す「必要な信号そのものが観測されているか(完全性)」 これら 3 つの前提を満たしてはじめて RCA は機能する。([[根本原因分析]] の「第3の前提条件「完全性」」参照) ### 間接メトリクスの限界 単純な間接メトリクスだけで観測不能な RCC を特定しようとすると、図示のような問題が生じる: ``` 例: DB-11 が障害 → サードパーティーサービス A の間接メトリクスが変動 しかし DB-11 はサービス B, C, D の間接メトリクスも変動させる → サービス A の変動が DB-11 由来か他の原因由来か区別できない ``` ## 横断的知見 - 限定観測可能性は、RCA の失敗を「モデルが弱い」ではなく「必要な信号が観測されていない」と説明する層を追加する。 - 入力を削る [[RCA入力選別]] と、観測不能な原因候補を潜在変数として扱う LatentScope は補完関係にある。 - 観測可能性の欠落をベンチマークに入れないと、RCA 手法は本番の blind spot に対して過大評価される。 ## 対処手法 ### LatentScope (Xie et al. 2024) [[LatentScope]] は観測不能な RCC を**潜在変数**として明示的にモデル化することで限定観測可能性を克服する最初の RCA 手法。 - **二空間グラフ**: 潜在 RCC 空間と観測可能メトリクス空間を多対多リンクで接続 - **RLIR**: 線形回帰で潜在変数を推定する介入認識アルゴリズム - **RCC 解決可能条件**: 根本原因一意性と共通原因一意性が満たされるとき潜在変数を一意に特定できることの理論的保証 eBay の 66 件の実障害で先行手法 CIRCA に対して Macro Top@1 を 48.6% 改善した。 ### ベンチマーク設計による対処 [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] は既存ベンチの 99% が少なくとも 1 種の観測データを欠くと定量化し、「観測ブラインドスポット(信号欠落・未監視層・信号間の矛盾)」を SOTA の失敗モードとして挙げる。ベンチマーク設計が限定観測可能性を積極的に模擬すべきという主張。 ## 未解決の問い - 観測不能な RCC の割合はシステムの種類(マイクロサービス・訓練クラスタ・ネットワーク)で大きく変わるか。eBay の 63.59% はどこまで一般化できるか - 間接メトリクスの曖昧性が増す(多対多リンクが密になる)と RCC-S Condition の成立が困難になる。実環境でこの条件はどの割合で成立するか - LatentScope は潜在変数を統計的に推定するが、観測不能 RCC への実際の修復アクションはどう決定するのか。「特定はできるが対処できない」という新たな問いが生まれないか ## 関連 - ソース: [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] / [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] - 概念: [[根本原因分析]] / [[Fault Localization]] / [[AIOps]] / [[テレメトリ]] - エンティティ: [[LatentScope]] ## 出典 - [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]](§2.2 定義・§2.3 eBay 実証研究・§2.4 間接メトリクスの限界・§3.1 二空間グラフ) - [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]](§6.2.4 観測ブラインドスポット失敗モード)