# Bits AI SRE ## 定義 Bits AI SRE は [[Datadog]] の自律エージェントで、production incident と monitor alert を調査し、複雑な telemetry を推論して root cause analysis を生成する。人間 SRE の働き方を模し、hypothesis を立て live telemetry で検証し有望な証拠を辿って根本原因に至る。time to resolution を最大 95% 削減すると主張する。([[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) ## アーキテクチャの要点 - **4 段階の Investigation Workflow**: alert から context 収集 → live telemetry で hypothesis 検証 → hypothesis 再定式化 → RCA 生成。 - **Hypothesis-Driven**: 全 telemetry を一括要約せず specific hypothesis を targeted query で検証/棄却し反復(詳細は [[根本原因分析]])。 - **Causal Relationship Focus**: alert と特定 signal の causal connection を優先。初期版は 12+ tool call で context overload に陥ったが、現行版は causal chain を辿る。 - **Recursive Depth**: 複雑 hypothesis を sub-hypothesis に分解し、証拠が支持すれば深掘りして search space を尽くす。 - **入力**: Logs / Traces(APM) / Metrics / Alerts を横断。multi-layer root cause を特定(例: CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing)。 ## 評価 - 数百件の real production incident でベンチを構築、LLM judge が結論を採点(pass/fail で人間判断と整合)。バージョン横断で改善。具体精度は未開示。 ## 位置づけ - 学術ベンチ([[SREGym]]・[[AIOpsLab]])が緩和まで含むのに対し、Bits AI SRE は**調査・RCA 段に焦点**。緩和は将来の specialist agent 統合(end-to-end resolution)で対応する計画。 - [[Google]] の [[AI Operator]](自律 first-responder)と対比される産業実装。AI Operator が actuation([[Actus]])と分離して自律緩和まで踏み込むのに対し、Bits AI SRE は現状は調査・RCA に留まる。 ## 関連 - エンティティ: [[Datadog]] / [[AI Operator]](Google の対比) / [[Stratus]] - 概念: [[根本原因分析]] / [[agentic SRE]] / [[SRE Benchmark]] / [[AIOps]] - ソース: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[SRE - MOC]] ## 出典 - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]