# Building Bits AI SRE - Autonomous Incident Investigation Agent
Navigation: [[index]] | [[sources/_index]] | [[hot]]
## 概要
[[Datadog]] の技術ブログ(著者 Daniel Shan・Tristan Ratchford)。同社の自律エージェント [[Bits AI SRE]] が production incident と monitor alert を調査し root cause analysis を生成する設計を解説する。人間 SRE の働き方——hypothesis を立て live telemetry で検証し有望な証拠を辿って根本原因に至る——を模す点を中心に据える。本 wiki では [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] に続く **2 例目の産業界・本番運用一次情報**で、学術ベンチが「緩和」を競うのに対しこのソースは**調査・RCA 段**に焦点を当てる産業実装である。
## Investigation Workflow(4 段階)
incident alert からの調査を 4 段階で回す(Source: [[.raw/articles/building-bits-ai-sre-2026-06-03]]):
1. alert から context を収集
2. live telemetry で hypothesis を検証
3. 証拠に基づき hypothesis を再定式化
4. root cause analysis を生成
## 設計原則
- **Hypothesis-Driven Investigation**: 全 telemetry を一度に要約せず、specific hypothesis を立てて targeted query で検証/棄却し反復する。分析を逸らすノイズを避ける(詳細は [[根本原因分析]])。
- **Causal Relationship Focus**: 全データを処理せず alert と特定 telemetry signal の causal connection を優先。初期版は logs/traces/metrics に 12+ tool call を発行し context window overload とノイズ干渉に陥ったが、現行版は causal chain を辿り焦点を保つ。
- **Recursive Depth**: multi-component 障害では複雑な hypothesis を sub-hypothesis に分解し、支持する証拠が出たら「digs deeper」する。search space を尽くすまで deeper root cause hypothesis を生成し、人間 SRE の推論を模す。
## 評価
- 社内チーム横断の **数百件の real production incident** でベンチマークを構築。human responder が実 incident と alert にラベル付けし、archived telemetry をエージェントに供給する。
- **LLM judge** が複数基準で結論を採点し、スコアは pass/fail で人間判断と整合する。
- バージョン横断で一貫した性能改善を示す(現行版が最高性能)。具体的な精度パーセンテージは未開示。
## Datadog プラットフォーム統合
- Logs(Log Management・Error Tracking)、Traces(APM)、Metrics(infra/service)、Alerts(monitor alert が調査を起動)を横断入力。
- Service Management 製品カテゴリ(Incident Response・Workflow Automation と並ぶ)に位置する。
- 「the largest dataset of production telemetry data in the industry」を活用すると主張。
## 主要主張・指標
- time-to-resolution を **最大 95% 削減**。
- multi-layer root cause の特定例: **CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing**。
- 複雑環境で correlated noise と causal signal を弁別。
- 将来: データソース被覆を拡大し、specialist agent と統合して end-to-end resolution workflow を実現する計画。
## 関連
- エンティティ: [[Bits AI SRE]] / [[Datadog]]
- 概念: [[根本原因分析]] / [[agentic SRE]] / [[SRE Benchmark]] / [[AIOps]]
- 比較対象: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](産業界 2 例目)
- 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[Telemetry - MOC]] / [[SRE - MOC]]
## 出典
- [[.raw/articles/building-bits-ai-sre-2026-06-03]](Datadog blog, 2026-06-03 取得)
- 原文: https://www.datadoghq.com/blog/building-bits-ai-sre/