# Building Bits AI SRE - Autonomous Incident Investigation Agent Navigation: [[index]] | [[sources/_index]] | [[hot]] ## 概要 [[Datadog]] の技術ブログ(著者 Daniel Shan・Tristan Ratchford)。同社の自律エージェント [[Bits AI SRE]] が本番のインシデントと monitor のアラートを調査し root cause analysis を生成する設計を解説する。人間の SRE の働き方——仮説を立てライブのテレメトリで検証し、有望な証拠を辿って根本原因に至る——を模す点を中心に据える。本 wiki では [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] に続く **2 例目の産業界・本番運用の一次情報**で、学術ベンチが「緩和」を競うのに対し、このソースは**調査・RCA の段階**に焦点を当てる産業実装である。 ## Investigation Workflow(4 段階) インシデントのアラートからの調査を 4 段階で回す(Source: [[.raw/articles/building-bits-ai-sre-2026-06-03]]): 1. アラートからコンテキストを収集 2. ライブのテレメトリで仮説を検証 3. 証拠に基づき仮説を再定式化 4. root cause analysis を生成 ## 設計原則 - **Hypothesis-Driven Investigation**: 全テレメトリを一度に要約せず、特定の仮説を立てて狙いを定めたクエリで検証・棄却し反復する。分析を逸らすノイズを避ける(詳細は [[根本原因分析]])。 - **Causal Relationship Focus**: 全データを処理せず、アラートと特定のテレメトリ信号の因果的なつながりを優先する。初期版は logs/traces/metrics に 12 を超えるツール呼び出しを発行しコンテキストウィンドウの過負荷とノイズ干渉に陥ったが、現行版は因果の連鎖を辿り焦点を保つ。 - **Recursive Depth**: 複数コンポーネントにまたがる障害では複雑な仮説をサブ仮説に分解し、支持する証拠が出たら「より深く掘り下げる」。探索空間を尽くすまでより深い根本原因の仮説を生成し、人間の SRE の推論を模す。 ## 評価 - 社内チーム横断の**数百件の実本番インシデント**でベンチマークを構築する。人間の対応者が実インシデントとアラートにラベル付けし、アーカイブされたテレメトリをエージェントに供給する。 - **LLM judge** が複数の基準で結論を採点し、スコアは pass/fail で人間の判断と整合する。 - バージョン横断で一貫した性能改善を示す(現行版が最高性能)。具体的な精度のパーセンテージは未開示。 ## Datadog プラットフォーム統合 - Logs(Log Management・Error Tracking)、Traces(APM)、Metrics(infra/service)、Alerts(monitor のアラートが調査を起動)を横断的に入力する。 - Service Management の製品カテゴリ(Incident Response・Workflow Automation と並ぶ)に位置する。 - 「the largest dataset of production telemetry data in the industry」を活用すると主張する。 ## 主要主張・指標 - time-to-resolution を**最大 95% 削減**。 - 複数の層にまたがる根本原因の特定例: **CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing**。 - 複雑な環境で、相関したノイズと因果的な信号を弁別する。 - 将来: データソースのカバレッジを拡大し、専門エージェントと統合してエンドツーエンドの解決ワークフローを実現する計画。 ## 関連 - エンティティ: [[Bits AI SRE]] / [[Datadog]] - 概念: [[根本原因分析]] / [[agentic SRE]] / [[SRE Benchmark]] / [[AIOps]] - 比較対象: [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](産業界 2 例目) - 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[Telemetry - MOC]] / [[SRE - MOC]] ## 出典 - [[.raw/articles/building-bits-ai-sre-2026-06-03]](Datadog blog, 2026-06-03 取得) - 原文: https://www.datadoghq.com/blog/building-bits-ai-sre/