# RCA入力選別 ## 定義 RCA入力選別は、根本原因分析に渡すログ・メトリクス・トレース・アラート・incident report を、過不足なく絞り込む設計課題である。RCA の失敗は推論モデルだけでなく、無関係な信号を渡しすぎること、逆に必要な信号を欠くことからも生じる。 ## 横断的知見 - [[MetricSifter]] は変化点検知と KDE で無関係メトリクスを削り、因果探索の前処理としての [[特徴量削減]] を定式化した。([[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) - [[Bits AI SRE]] と [[AIOpsLab]] は、LLM エージェントが get_metrics/get_traces を増やしすぎるとコンテキストがノイズで埋まり、性能が落ちると報告する。([[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - [[LogPilot]] は PromQL alert intent と実行パターンクラスタリングを使い、全ログ要約でも貪欲な一点深掘りでもない中間の入力選別を行う。([[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]]) - [[OpenRCA]] は raw telemetry を LLM コンテキストに載せず、stateful Python kernel で処理する。入力を「削る」だけでなく「コード実行で外部化する」設計もある。([[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]]) - [[限定観測可能性]] は、入力選別以前に必要な信号が存在しないケースを扱う。削減・保持・完全性の 3 条件を分けて考える必要がある。 ## 未解決の問い - 統計的特徴量削減と LLM エージェントの仮説選択を、どの順序で組み合わせると最も頑健か。 - 入力選別が過剰で真の根本原因信号を捨てた場合、エージェントはどう検知し再取得すべきか。 - alert intent、incident report、トレース構造、メトリクス変化点のどれを RCA の起点にするかは、ドメインごとにどう決まるか。 ## 関連 - 親: [[根本原因分析]] - 概念: [[特徴量削減]] / [[Fault Localization]] / [[限定観測可能性]] / [[ログ解析]] / [[テレメトリ]] - ソース: [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] / [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] / [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] / [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]] ## 出典 - [[@2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] - [[@2025__ASE__LogPilot - Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems]] - [[@2025__ICLR__OpenRCA - Can Large Language Models Locate the Root Cause of Software Failures]]