RCACopilot - yuuk1's Digital Garden

# RCACopilot [[Yinfang Chen]] ほか([[Microsoft]] 系)が EuroSys 2024 で提案したクラウドインシデント向けの LLM ベース RCA システム([[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]], DOI: 10.1145/3627703.3629553)。 ## システム詳細 **アーキテクチャ**: 2 段構成。(1) アラート種別ごとの**インシデントハンドラ**が多種ソース(ログ・メトリクス・トレース・スクリプト実行結果)から診断情報を自動収集し、(2) GPT-4 が診断情報を 120〜140 語に要約したうえで FastText 埋め込み + 時間重み付き k-NN の few-shot CoT プロンプトで根本原因カテゴリを予測する。 **性能**: Microsoft Transport サービス(日次 150 億通メール)の 653 件インシデントでMicro-F1=0.766 / Macro-F1=0.533。FastText(0.076)・XGBoost(0.022)・Fine-tune GPT(0.103)を大幅に上回る。 **本番実績**: 診断情報収集コンポーネントは Microsoft 30 超チームで 4 年以上稼働(2023 年時点)。根本原因予測コンポーネントも一部本番デプロイ済み。 **主要設計**: - 情報スペクトラム問題(情報過多・情報不足の両端が RCA を困難にする)への対処として、ハンドラがアラート種別ごとに必要最小限の診断情報のみを収集 - 未見インシデントへの対応: 「Unseen incident」オプションと新カテゴリ keyword 生成機能 - 時間距離の考慮: 類似度関数 $e^{-\alpha|T(a)-T(b)|}$ で直近の類似インシデントを優先(インシデントの 93.80% が 20 日以内に再発という知見を活用) **限界**(論文が認める範囲): - ハンドラが存在しないアラート種別には対応不可 - 評価が Microsoft Transport のみで他サービス・他社への汎化性は未検証 - GPT モデルのみに依存(他 LLM は未評価) **ベースラインとしての評価**: 後継論文 [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] が SOTA ベースラインとして採用し、208 件の Azure AI ワークロードインシデントで Micro F1=0.656 / Macro F1=0.380 と報告。TSGuard 論文は RCACopilot の限界として (1) 反復的フィードバックと自己検証能力の欠如(one-shot 推論)、(2) semantic retrieval のみへの依存、(3) ドメイン固有知識の欠如、を挙げる。 [[COCA]]([[@2025__arXiv__COCA - Generative Root Cause Analysis for Distributed Systems with Code Knowledge]])もベースラインとして採用し、5 システム 106 件のイシューレポート設定(JIRA)で Exact Match +28.3%・BLEU-4 +22.0% の向上を報告する。COCA は RCACopilot の限界として「埋め込みベース類似度のみでは多様なイシューレポートへの対応が最適でない」点を指摘し、BM25 + コード実行パス再構築で超えた。(Source: [[@2025__arXiv__COCA - Generative Root Cause Analysis for Distributed Systems with Code Knowledge]] §IV-C, §V-A) ## 関連 - 一次論文: [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] - ベースラインとしての評価: [[@2026__FSE__TSGuard - Automated User-Centric Incident Diagnosis for AI Workloads in the Cloud]] - 開発元: [[Microsoft]] - 著者: [[Yinfang Chen]] / [[Minghua Ma]] / [[Saravan Rajmohan]] / [[Dongmei Zhang]] / [[Qingwei Lin]] - 関連概念: [[根本原因分析]] / [[インシデント管理]] / [[RCA入力選別]] / [[TSG自動化]] - 比較対象: [[TSGuard]]