# 根本原因分析 ## 定義 根本原因分析(Root Cause Analysis, RCA)は、検知・局所化された障害について、その**根本原因**(影響する system 層・fault 種別・因果連鎖)を判定する営みで、[[AIOps]] の 4-level taxonomy では detection・localization の上、[[障害緩和]](mitigation)の手前に位置する第 3 段である。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) エージェント実装では、人間 SRE の推論——hypothesis を立て live telemetry で検証し有望な証拠を辿って根本原因に至る——を模す **hypothesis-driven investigation** が中心設計になる。([[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) ## 横断的知見 - **「情報を取りすぎる」病理が RCA でも前提化されている**: [[Bits AI SRE]] は初期版が logs/traces/metrics に 12+ tool call を発行して context window overload とノイズ干渉に陥ったと明かし、現行版を「全 telemetry の一括要約」でなく causal chain を辿る hypothesis-driven 設計に切り替えた。これは [[AIOpsLab]] §3.6 の「成功エージェントほど get_metrics/get_traces を控える」、[[SREGym]] の greedy 固着、[[MicroRemed]] の過剰 probing の害と同根の現象([[agentic SRE]] に詳述)。学術ベンチが観測した病理を、産業実装が製品設計の出発点として明示的に回避している。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **hypothesis-driven の反復が RCA の共通骨格**: [[Bits AI SRE]] の「hypothesis を立て→targeted query で検証/棄却→再定式化→深掘り」という 4 段ループは、[[SREGym]] が全エージェントに望む「複数仮説の並行検証」、[[Stratus]] の探索→診断→検証ループと同型。RCA を「全データの要約」でなく「仮説検証の反復探索」として定式化する見方が産業・学術で一致しつつある。ただし [[SREGym]] は全エージェントが最初のもっともらしい異常に固着する greedy approach に陥ると報告しており、Bits AI SRE の主張する反復的深掘りが実際にどこまで実現できているかは外部検証されていない。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **RCA を緩和から切り離す産業設計**: [[Bits AI SRE]] は現状を調査・RCA 段に絞り、緩和は将来の specialist agent 統合(end-to-end resolution)に委ねる。[[Google]] の [[AI Operator]] が actuation([[Actus]])まで踏み込む産業実装と対照的で、RCA 専門 → 緩和は別エージェント、という役割分割が産業側でも現れた。これは [[MicroRemed]] が緩和段だけを切り出す学術側の decouple と表裏([[SRE Benchmark]] 参照)。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **RCA の前段「localization + 特徴量削減」を担う統計手法の系譜**: LLM エージェント以前の metric-based 手法は、RCA([[AIOps]] Level 3)の手前で root fault metrics を絞る [[Fault Localization]](Level 2)と、その前処理 [[特徴量削減]] を統計的に解いてきた。[[MetricSifter]]([[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]])は change point detection + KDE で無関係メトリクス $M_C$ を除去し、後段の因果探索ベース RCA(PC・LiNGAM)の精度を上げる。注目すべきは MetricSifter が示す「$M_C$ がノイズとして localization/RCA を阻害する」課題が、後年 [[Bits AI SRE]] や [[AIOpsLab]] §3.6 が LLM エージェントで観測した「telemetry 過剰消費で性能が落ちる」病理と同型なこと。情報を絞ってから因果を辿る、という RCA の骨格は統計手法時代から一貫している。(Source: [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) ## 未解決の問い - [[Bits AI SRE]] の「causal connection を優先し correlated noise と弁別する」主張は、どの機構(因果推論・トポロジ・学習済み相関)で実現しているか不明。telemetry の相関と因果をエージェントはどう区別するのか。 - multi-layer root cause(CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing)の深掘りは、どこで停止すべきか。「search space を尽くす」と「深掘りしすぎてコスト/ノイズが増える」のトレードオフを適応的に決める停止規準は何か([[agentic SRE]] の reflection 逓減の問いと接続)。 - RCA の成功をどう判定するか。[[Bits AI SRE]] は数百件の実 incident に LLM judge を当てるが具体精度は未開示。RCA の oracle(根本原因の正解定義)は localization の exact-match([[AIOpsLab]])と checklist-based LLM judge([[SREGym]])のどちらに寄せるのが妥当か([[SRE Benchmark]] 参照)。 - RCA 専門エージェントと緩和エージェントを分けたとき、RCA の出力(根本原因仮説)を緩和エージェントへどう引き渡すか。診断誤差の伝播([[障害緩和]] の問い)は分業でむしろ増えないか。 - [[MetricSifter]] のような統計的 [[特徴量削減]] で絞ったメトリクス集合を LLM エージェントの RCA 入力に渡すと、エージェントの telemetry 過剰消費は緩和され RCA 精度は上がるか。古典統計の前処理と LLM エージェントの推論は補完的に組めるか。 ## 関連 - ソース: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] / [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] - 概念: [[AIOps]] / [[agentic SRE]] / [[障害緩和]] / [[SRE Benchmark]] / [[Fault Localization]] / [[特徴量削減]] - エンティティ: [[Bits AI SRE]] / [[Datadog]] / [[AIOpsLab]] / [[SREGym]] / [[Stratus]] / [[AI Operator]] / [[MetricSifter]] - 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[LLM4SRE - MOC]] / [[SRE - MOC]] ## 出典 - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]](Investigation Workflow, Design Principles) - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](Table 1, Level 3 RCA, §3.6) - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](greedy approach) - [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]](§II-A, §IV-C3, Table 3)