# RCA評価設計
## 定義
RCA評価設計は、根本原因分析手法が本当に因果的な診断能力を持つかを測るため、障害データ、オラクル、指標、過程評価を設計する取り組みである。単純な Top@K や exact match だけでは、実務で役立つ説明・調査コスト・観測不能性を十分に測れない。
## 横断的知見
- SimpleRCA が既存ベンチで SOTA に匹敵したことは、ベンチが原因サービスだけに症状を局在させすぎていた可能性を示す。([[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]])
- 既存ベンチの多くは観測データ欠落を含み、SOTA の失敗モードとして観測ブラインドスポットがある。RCA 評価は [[限定観測可能性]] を明示的に含める必要がある。
- [[Cloud-OpsBench]] は A@K の結果評価だけでなく、IAC/RAR/ZTDR などの白箱過程評価を導入し、結果が当たっても調査過程が脆いケースを分ける。([[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]])
- [[LogPilot]] は exact localization と人手 usefulness を併用し、産業 RCA の受容率を開示した。実務では「当たったか」だけでなく「運用者が採用できる説明か」が評価対象になる。([[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]])
- [[SRE Benchmark]] 系の checklist-based judge は、診断説明や緩和提案を評価できる一方、オラクル設計に人間の判断が混ざる。
## 未解決の問い
- RCA の評価単位は root service、root metric、root category、causal chain、human-readable report のどれに置くべきか。
- 1 障害 1 根本原因ではなく、多対多の症状・原因関係を持つ本番インシデントをどうベンチ化するか。
- 調査過程が破綻していても最終回答が当たるケースを、本番導入で信頼してよいか。
- LLM judge と人手評価を併用する場合、再現性と運用有用性のバランスをどう取るか。
## 関連
- 親: [[根本原因分析]]
- 概念: [[SRE Benchmark]] / [[障害注入]] / [[限定観測可能性]] / [[Fault Localization]]
- ソース: [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]] / [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]] / [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]
## 出典
- [[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]
- [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]]
- [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]