RCA入力選別 - yuuk1's Digital Garden

# RCA入力選別 ## 定義 RCA入力選別は、根本原因分析に渡すログ・メトリクス・トレース・アラート・incident report を、過不足なく絞り込む設計課題である。RCA の失敗は推論モデルだけでなく、無関係な信号を渡しすぎること、逆に必要な信号を欠くことからも生じる。 ## 横断的知見 - [[MetricSifter]] は変化点検知と KDE で無関係メトリクスを削り、因果探索の前処理としての [[特徴量削減]] を定式化した。([[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) - [[Bits AI SRE]] と [[AIOpsLab]] は、LLM エージェントが get_metrics/get_traces を増やしすぎるとコンテキストがノイズで埋まり、性能が落ちると報告する。([[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - [[LogPilot]] は PromQL alert intent と実行パターンクラスタリングを使い、全ログ要約でも貪欲な一点深掘りでもない中間の入力選別を行う。([[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]) - [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis|Baidu の自動メトリクススクリーニング]] は、ゴールデンメトリクスの手動設定なしに全モジュール・全メトリクスを調べ、インスタンス集合 + 異常メトリクス集合のダイジェストへ圧縮する。これは LLM エージェント以前の RCA 入力選別であり、出力を「人間が次に見る候補」に保つ点で、後年の MetricSifter や RCACopilot の圧縮ファースト戦略と同じ問題を扱う。(Source: [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis]], [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]], [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]]) - [[OpenRCA]] は raw telemetry を LLM コンテキストに載せず、stateful Python kernel で処理する。入力を「削る」だけでなく「コード実行で外部化する」設計もある。([[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]]) - [[限定観測可能性]] は、入力選別以前に必要な信号が存在しないケースを扱う。削減・保持・完全性の 3 条件を分けて考える必要がある。 - [[RCAgent]] は OBSK によって観測全文を key-value store に退避し、プロンプトには観測の先頭と snapshot key だけを載せる。これは raw telemetry をコード実行へ外部化する [[OpenRCA]] と同じく「LLM コンテキストを唯一の作業領域にしない」設計であり、[[LogPilot]] の request クラスタリングや [[MetricSifter]] の特徴量削減と並ぶ、入力量を制御しつつ再取得可能性を残す方法である。(Source: [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]], [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]], [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]) - [[RCAgent]] の SQL/SLS 直接ツール置換で Invalid Rate が 70.94% まで悪化した事実は、入力選別がデータ量だけでなく**行動空間の選別**でもあることを示す。ツールの引数空間をエンティティ ID など単純な形に畳むことは、LLM エージェントにとっての特徴量削減に相当する。(Source: [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]]) - **「情報スペクトラム」問題では情報過多と情報不足の両端が RCA 精度を等しく損なう**: [[RCACopilot]]([[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]])はアブレーション実験で、診断情報のみ(Micro-F1=0.766)が最良で、アラート情報のみ(AlertInfo: 0.379)より大幅に優れ、診断情報とアラート情報を**混合すると逆に 0.525 に低下**することを実証した。情報を加えると性能が下がるという反直感的な結果は、[[Bits AI SRE]]/[[AIOpsLab]] の「テレメトリ取りすぎ」と同じ病理が、マルチソース統合設計でも起きることを示す。[[RCACopilot]] は 2,000 トークン超の診断情報を GPT で 120〜140 語に要約する「圧縮ファースト」戦略でこれを緩和する。(Source: [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **マルチソース診断情報のハンドラ設計がインシデント種別ごとの入力選別を実現する**: [[RCACopilot]] は静的なデータ取得でなく、アラート種別に紐づくインシデントハンドラ(有向グラフワークフロー)が「スコープ切替→クエリ→緩和」の 3 種のアクションノードを組み合わせてログ・メトリクス・スクリプト実行結果を統合する。単一ソースでは解けない根本原因(UDP ハブポート枯渇等)がマルチソース統合で初めて特定できるという知見は、[[MetricSifter]] の「関係ない信号を削る」アプローチとは逆の「必要なソースを組み合わせる」アプローチが補完的に必要なことを示す。(Source: [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]], [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) ## 未解決の問い - 統計的特徴量削減と LLM エージェントの仮説選択を、どの順序で組み合わせると最も頑健か。 - 入力選別が過剰で真の根本原因信号を捨てた場合、エージェントはどう検知し再取得すべきか。 - alert intent、incident report、トレース構造、メトリクス変化点のどれを RCA の起点にするかは、ドメインごとにどう決まるか。 - 「ゴールデンメトリクスなしで全メトリクスを見る」戦略は、サービス規模とメトリクス種類がさらに増えた現在でも成立するか。事前に意味的なメトリクス分類を持つ設計と、完全統計的なスクリーニングの境界はどこか。 - OBSK のような「退避して後で引く」設計では、どの snapshot key を再取得すべきか自体がエージェントの判断になる。再取得漏れによる偽陰性と、再取得しすぎによるコンテキスト肥大をどう制御するか。 - [[RCACopilot]] の「情報スペクトラム」では、ハンドラが収集する診断情報の最適な範囲は事前に定義できるか、それともインシデントごとに動的に決まるか。ハンドラが存在しないアラート種別に対して RCACopilot が適用不能であるという限界は、事前のハンドラ設計工数を正当化するためにどれだけの精度向上が必要か。([[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]]) ## 関連 - 親: [[根本原因分析]] - 概念: [[特徴量削減]] / [[Fault Localization]] / [[限定観測可能性]] / [[ログ解析]] / [[テレメトリ]] - ソース: [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis]] / [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] / [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] / [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] / [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]] / [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]] ## 出典 - [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] - [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] - [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]] - [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] - [[@2024__EuroSys__Automatic Root Cause Analysis via Large Language Models for Cloud Incidents]](情報スペクトラム問題・マルチソース混合で精度低下・GPT 要約による圧縮戦略) - [[@2018__SREcon18 Americas__Automatic Metric Screening for Service Diagnosis]](ゴールデンメトリクスなしの全メトリクススクリーニング、ダイジェスト推薦)