# ドメイン別RCA
## 定義
ドメイン別RCAは、根本原因分析を汎用 AIOps の単一手法として扱わず、対象システムの構造・信号源・介入可能性に応じて分ける考え方である。マイクロサービス、データベース、LLM 訓練クラスタ、RDMA ネットワークでは、同じ RCA という語を使っても観測対象と因果構造が大きく異なる。
## 横断的知見
- **マイクロサービス RCA** は依存グラフ・トレース・ログ・メトリクスを横断し、限定観測可能性や非致命的 RPC エラーを扱う。([[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]], [[@2024__PACMCAS__The Tale of Errors in Microservices]])
- **DB RCA** は DB 内部機構の知識が律速で、D-Bot/DBAIOps/OpDiag のように診断ドキュメント・知識グラフ・実行計画を外部化する必要がある。([[データベース自律診断]], [[データベース O&M]])
- **LLM 訓練 RCA** はサービス依存グラフではなく、均質な GPU 群・集合通信・ストラグラー・ハードウェア故障を主信号にする。[[Minder]] はクラウドサービスの不均質な依存パターンではなく、訓練クラスタの均質性を利用する。([[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]])
- **RDMA/NetOps RCA** は PFC、wait-for graph、フロー/QP 単位の来歴などネットワーク固有の因果構造を扱う。([[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]])
- ドメイン差は手法差だけでなく、緩和可能性の差でもある。DB のノブ変更、マイクロサービスのロールバック、訓練クラスタのノード隔離、RDMA のフロー/スイッチ操作は安全制約が異なる。
## 未解決の問い
- 汎用 RCA エージェントに、どの段階でドメイン別ツール・知識グラフ・評価指標を切り替えさせるべきか。
- ドメイン特化の診断信号を、共通の incident report / causal chain 表現へ正規化できるか。
- ドメイン別 RCA の成果を、共通の [[障害緩和]] エージェントへ渡すインターフェースは設計できるか。
## 関連
- 親: [[根本原因分析]]
- 概念: [[データベース自律診断]] / [[データベース O&M]] / [[LLM分散学習]] / [[RDMAネットワーク監視]] / [[NetOps]] / [[限定観測可能性]]
- ソース: [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] / [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]] / [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] / [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]
## 出典
- [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]]
- [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]]
- [[@2025__PVLDB__DBAIOps - A Reasoning LLM-Enhanced Database Operation and Maintenance System using Knowledge Graphs]]
- [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]]
- [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]