# ドメイン別RCA ## 定義 ドメイン別RCAは、根本原因分析を汎用 AIOps の単一手法として扱わず、対象システムの構造・信号源・介入可能性に応じて分ける考え方である。マイクロサービス、データベース、LLM 訓練クラスタ、RDMA ネットワークでは、同じ RCA という語を使っても観測対象と因果構造が大きく異なる。 ## 横断的知見 - **マイクロサービス RCA** は依存グラフ・トレース・ログ・メトリクスを横断し、限定観測可能性や非致命的 RPC エラーを扱う。([[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]], [[@2024__PACMCAS__The Tale of Errors in Microservices]]) - **DB RCA** は DB 内部機構の知識が律速で、D-Bot/DBAIOps/OpDiag のように診断ドキュメント・知識グラフ・実行計画を外部化する必要がある。([[データベース自律診断]], [[データベース O&M]]) - **LLM 訓練 RCA** はサービス依存グラフではなく、均質な GPU 群・集合通信・ストラグラー・ハードウェア故障を主信号にする。[[Minder]] はクラウドサービスの不均質な依存パターンではなく、訓練クラスタの均質性を利用する。([[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]]) - **RDMA/NetOps RCA** は PFC、wait-for graph、フロー/QP 単位の来歴などネットワーク固有の因果構造を扱う。([[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]) - ドメイン差は手法差だけでなく、緩和可能性の差でもある。DB のノブ変更、マイクロサービスのロールバック、訓練クラスタのノード隔離、RDMA のフロー/スイッチ操作は安全制約が異なる。 ## 未解決の問い - 汎用 RCA エージェントに、どの段階でドメイン別ツール・知識グラフ・評価指標を切り替えさせるべきか。 - ドメイン特化の診断信号を、共通の incident report / causal chain 表現へ正規化できるか。 - ドメイン別 RCA の成果を、共通の [[障害緩和]] エージェントへ渡すインターフェースは設計できるか。 ## 関連 - 親: [[根本原因分析]] - 概念: [[データベース自律診断]] / [[データベース O&M]] / [[LLM分散学習]] / [[RDMAネットワーク監視]] / [[NetOps]] / [[限定観測可能性]] - ソース: [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] / [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]] / [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] / [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]] ## 出典 - [[@2024__KDD__Microservice Root Cause Analysis with Limited Observability]] - [[@2024__PVLDB__D-Bot - Database Diagnosis System using Large Language Models]] - [[@2025__PVLDB__DBAIOps - A Reasoning LLM-Enhanced Database Operation and Maintenance System using Knowledge Graphs]] - [[@2025__NSDI__Minder - Faulty Machine Detection for Large-scale Distributed Model Training]] - [[@2025__SIGCOMM__Hawkeye - Diagnosing RDMA Network Performance Anomalies with PFC Provenance]]