2025__arXiv__Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought

## Memo 本論文はマイクロサービスシステムにおける根本原因特定のための新しいアプローチを提案している。[[SRE]](Site Reliability Engineer)の手動分析プロセスを模倣し、再帰的思考、多次元検索、クロスモーダル推論の3つの特性を組み込んだマルチエージェント型LLMベースのシステム「RCLAgent」を開発している。従来手法は複数のリクエストを集約して分析する必要があるのに対し、RCLAgentは単一リクエストでの分析で優れた性能を達成することが実験で示されている。 ## Memo with LLM ### 論文情報 **論文のタイトル** Adaptive Root Cause Localization for Microservice Systems with Multi-Agent Recursion-of-Thought **著者と所属** - Lingzhe Zhang (北京大学) - Tong Jia (北京大学、対応著者) - Kangjin Wang (阿里巴巴) - Weijie Hong (北京大学) - Chiming Duan (北京大学) - Minghua He (北京大学) - Ying Li (北京大学、対応著者) **発表媒体** arXiv (2508.20370)、2025年8月28日投稿 **発表年** 2025年 ### 論文概要本論文は複雑化するマイクロサービスシステムにおける根本原因特定の課題に取り組んでいる。SREの手動分析プロセスを詳細に研究し、そこから得られた3つの主要特性（再帰性、多次元検索、クロスモーダル推論）を組み込んだマルチエージェント型LLMベースのシステムRCLAgentを提案する。提案手法は単一リクエストの分析のみで、複数リクエスト集約を必要とする既存手法を凌駕する性能を達成する。 ### 詳細解説 #### 問題設定 **入出力と必要データ** マイクロサービスシステムにおける根本原因特定(Root Cause Localization, RCL)問題は、次のように定義される：入力：異常を示すリクエストのセット出力：根本原因となるコンポーネント(サービス、ポッド、ノードなど) 必要なデータ： 1. **分散トレース(Distributed Trace)データ**：リクエストがシステム内を通過する際の実行パスを記録したもの。各トレースは複数の「スパン」から構成され、各スパンは個別の操作を記録する。スパンはサービス名、操作名、タイムスタンプ、実行時間、ステータスコードなどの情報を含む。 2. **メトリクスデータ**：システムコンポーネントのランタイム状態を表すデータ。CPU使用率、メモリ使用率、応答時間、スループットなど、リアルタイムで大量に生成される。従来手法の課題： - 事前定義されたサービス因果グラフに強く依存し、運用環境の変化への適応が困難 - グラフベースの方法では透明性が低く、SREが結論に至る理由を理解しづらい - リクエストの集約分析に依存し、計算量が増大する #### 提案手法 **RCLAgentのアーキテクチャ** RCLAgentは2種類のエージェントから構成される： 1. **データエージェント**：データ検索・処理を担当 - **Trace Agent**：リクエストに関連するトレースデータを効率的に抽出。与えられたスパン識別子に対して、子スパンとメタデータを返す。タイムスタンプ、子スパンID、サービス名、操作名、実行時間、ステータスコード、全子スパンの集合を返す。 - **Metrics Agent**：異常を示すメトリクスのみを選別して取得。異常検出はk-シグマテストに基づく。メトリクスについて、時間ウィンドウ内で |m(t) - μ_m| > k σ_m を評価し、異常検出時のみ指定期間のメトリクス変動データを返す。 - **Format Agent**：LLMの自然言語出力を構造化形式に変換。特に最終結果では、根本原因(root_cause)と説明(reason)の2つのフィールドのみを出力する。 2. **思考エージェント**：深い推論に基づく分析を担当 - **Intermodal Inference Agent**：トレースデータとメトリクスデータ間のセマンティックギャップを埋める。トレース分析から得られた文脈埋め込みから、キーワード(潜在的根本原因)と時間ウィンドウを抽出し、メトリクスクエリパラメータを合成する。 - **Recursion Agent**：再帰的思考(Recursion-of-Thought)メカニズムを実装。従来の連鎖思考(Chain-of-Thought)とは異なり、各ステップでの情報に基づいて段階的な推論指示を生成する。各指示は下位エージェントにデータ検索を指示し、分析パスが行き止まりに到達した場合は未検査の候補にバックトラックする。 **再帰的思考メカニズム** 核心的なプロセス： 1. Trace Agentが高実行時間のリクエストの入口スパンを特定 2. 各ステップでLLMベースの推論指示を生成し、現在の候補スパンを分析 3. 潜在的根本原因と判定された場合、Intermodal Inference Agentでクエリパラメータを合成 4. Metrics Agentで異常を確認（メトリクス変動が観察された異常を支持するかチェック） 5. メトリクスで確認された場合は潜在的根本原因セットに追加、そうでなければ子スパンを探索 6. 分析パスが死路に到達した場合、未検査の候補にバックトラック 7. Format Agentで結果を標準フォーマットに変換 **コーディネーターによる3段階実行** 1. **初期推論フェーズ**：Metrics Agentを意図的に隠蔽し、トレースデータのみに基づいて予備的評価を実行。高速化を意図した設計。 2. **批判的省察フェーズ**：モデルに対してトレースツリー内をさらに深く掘り下げるよう明示的に指示。既に根本原因候補が特定されている場合でも、さらなる調査を強制する。このフェーズでMetrics Agentが有効化される。 3. **最終レビューフェーズ**：複数の候補から最終的な根本原因を決定。簡単な多数決戦略を採用可能。 #### 新規性 **先行研究との比較** 1. **従来のグラフベース手法との違い**： - [[2018__ICSOC__Microscope―Pinpoint Performance Issues with Causal Graphs in Micro-service Environments|Microscope]], [[2022__KDD__Causal Inference-Based Root Cause Analysis for Online Service Systems with Intervention Recognition|CIRCA]], [[2024__AAAI__Root Cause Analysis In Microservice Using Neural Granger Causal Discovery|RUN]]等は事前定義されたサービス因果グラフに依存し、運用環境の変化に弱い - MicroRank, TraceRank, CRISPなどのスペクトラム解析手法は固定統計モデルを使用 - 本提案は動的で解釈可能な推論プロセスを提供 2. **LLM統合手法との違い**： - [[2024__arXiv__mABC - multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture|mABC]]は構造化ワークフロー+ブロックチェーン型投票 - RCAgentはログ・コード分析に特化 - 本提案は再帰的思考による適応的な分析パスの動的構築が特徴 3. **新規な要素**： - **再帰的思考**：従来のChain-of-Thoughtは線形推進だが、本手法は各ステップでのバックトラッキングと適応的な分析パス調整をサポート - **SRE行動の実証研究**：実際のSREの3つの主要分析特性(再帰性、多次元検索、クロスモーダル推論)を具体的に抽出し、それに基づくシステム設計 - **単一リクエスト分析の有効性**：複数リクエスト集約に依存せず、単一リクエストでの優れた性能を実証 #### 実験設定 **データセットと評価指標** 実験対象：6つの公開データセット(AIOPS 2022, AIOPS 2021, TMul-1, TMul-2, Alibaba内部データセット等) **評価指標**： - **Recall@k**：上位k件の推奨結果に実際の根本原因が含まれる割合 - **Mean Reciprocal Rank (MRR)**：推奨結果において根本原因が何番目に現れるかの逆数の平均異常の定義：入口スパンの実行時間が通常の平均実行時間の100倍を超える場合 #### 実験結果 **主要な結果**： 1. **単一リクエスト分析での優異性**： - RCLAgentのRecall@1が既存手法のRecall@10を上回る - 複数リクエスト集約に依存する既存手法との大幅な性能差 2. **グループランキングでの性能**： - 簡単な多数決戦略適用時のMRRが2番目に優れた手法を平均32.53%上回る 3. **複数データセットでの一貫性**： - 6つの異なるデータセット全体での安定した性能向上を確認 4. **具体的な分析例**： - 論文中のケーススタディでは、システム内で複数の潜在的根本原因候補がある場合、再帰的に深堀りして、最終的にトレース分析とメトリクス検証を組み合わせることで正確に根本原因(networkリソース破損)を特定 **メトリクス分析の効果**：メトリクスによる確認フェーズの導入により、トレース分析だけでは区別できない複数候補から、実際に異常なコンポーネントのみを絞り込むことができることを実証 **計算効率**：単一リクエストのみの分析で充分な精度を達成することで、大規模データセット処理において計算量を大幅に削減 ### 論文の位置付けと意義本論文の主な貢献は以下の通り： 1. **実証研究の価値**：実際のSRE実務から3つの主要特性を抽出し、これがAIOps研究に重要な示唆を提供している。 2. **方法論的革新**：再帰的思考とマルチエージェント協調による適応的な根本原因特定は、既存のグラフベース・統計的手法では達成困難なレベルの解釈可能性と効率性を実現。 3. **実装的価値**：単一リクエスト分析で優れた性能を達成することで、実運用での処理効率と遅延が大幅に改善され、SREの負担軽減に直結する。 4. **将来研究への示唆**：より小規模LLMでの実現、フルライフサイクル故障管理への拡張など、複数の発展的方向を提示している。 ## Abstract 現代のマイクロサービスシステムは急速に人気が高まり、複雑化している。数百から数千の細粒度で相互依存するサブシステムで構成されることが多く、より頻繁な障害に直面している。したがってシステム信頼性を確保するには、根本原因を正確に特定する必要がある。トレースとメトリクスはこのタスクの効果的なデータソースであることが証明されているが、既存の手法は事前定義されたスキーマに大きく依存しており、進化する運用環境への適応に苦労するか、推論プロセスの解釈可能性が不足しており、Site Reliability Engineers (SREs)を困惑させている。本論文では、SREがいかにして障害の根本原因を特定するかについて包括的な研究を実施し、複数の組織に属する複数の専門的SREから得られた知見を活用する。調査の結果、人間による根本原因分析には3つの主要な特性があることが明らかになった。すなわち、再帰性（より深いレベルの根本原因が特定される場合、SREは反復的に分析を洗練し、下位レイヤーの現象を検証する）、多次元的展開（ポッド、サービス、インフラなど異なる次元にわたって検索を拡張し、あらゆる潜在的根本原因を考慮する）、およびクロスモーダル推論（トレースデータを通じて潜在的根本原因が特定されると、関連するメトリクスの変動を分析することで検証される）である。これらの知見に動機づけられて、マルチエージェント再帰思考フレームワークを活用するマイクロサービスシステムのための適応的根本原因特定手法RCLAgentを提案する。RCLAgentは、LLMの推論プロセスをガイドするための新規な再帰思考戦略を採用し、複数のエージェントとツール支援分析からのデータを効果的に統合して、根本原因を正確に特定する。様々な公開データセットでの実験的評価により、RCLAgentは単一のリクエストのみを使用して根本原因を特定することで優れた性能を達成し、複数のリクエストの集約に依存する既存手法を上回ることが実証されている。これらの結果は、複雑なマイクロサービス環境での根本原因特定の効率性と精度を向上させる際のRCLAgentの有効性を強調している。