Bits AI SRE - yuuk1's Digital Garden

# Bits AI SRE ## 定義 Bits AI SRE は [[Datadog]] の自律エージェントで、本番インシデントとモニターアラートを調査し、複雑なテレメトリを推論して根本原因分析を生成する。人間 SRE の働き方を模し、仮説を立ててライブテレメトリで検証し有望な証拠を辿って根本原因に至る。解決までの時間を最大 95% 削減すると主張する。([[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) ## アーキテクチャの要点 - **4 段階の Investigation Workflow**: アラートからコンテキスト収集 → ライブテレメトリで仮説検証 → 仮説の再定式化 → RCA 生成。 - **Hypothesis-Driven**: 全テレメトリを一括要約せず、特定の仮説を的を絞ったクエリで検証/棄却し反復(詳細は [[根本原因分析]])。 - **Causal Relationship Focus**: アラートと特定シグナルの因果的なつながりを優先。初期版は 12 件超のツール呼び出しでコンテキストの過負荷に陥ったが、現行版は因果連鎖を辿る。 - **Recursive Depth**: 複雑な仮説を下位仮説に分解し、証拠が支持すれば深掘りして探索空間を尽くす。 - **入力**: Logs / Traces(APM) / Metrics / Alerts を横断。多層の根本原因を特定(例: CrashLoopBackOff → OOM → large Kafka payloads → inefficient parsing)。 ## 評価 - 数百件の実際の本番インシデントでベンチを構築、LLM judge が結論を採点(pass/fail で人間判断と整合)。バージョン横断で改善。具体的な精度は未開示。 ## GA 後の拡張（2025-06 GA → 2025-12 更新） GA 時点および私有プレビューで追加された機能（Source: [[@2025__Datadog__Introducing Bits AI SRE]]）: - **文脈記憶**: 調査ごとに記憶を蓄積し、パターン認識で将来の分析を加速する。エンジニアのフィードバックでループを形成する。 - **コード修正生成（Bits AI Dev Agent、プレビュー）**: コード起因の根本原因を特定後、修正を提案し PR を自動生成する。エンジニアがレビュー・マージすることでエンドツーエンド解決を実現する。 - **調査トリガー拡大（プレビュー）**: アラートに加え、合成 API テスト失敗・APM レイテンシグラフ・APM Watchdog ストーリーからも調査を起動できる。 - **推奨アクション（プレビュー）**: Slack 要約送信・Jira チケット作成等のシングルクリック実行。 ## 位置づけ - 学術ベンチ([[SREGym]]・[[AIOpsLab]])が緩和まで含むのに対し、Bits AI SRE は**調査・RCA 段に焦点**を絞る。Bits AI Dev Agent のプレビューは「コード修正」まで踏み込む初の拡張。 - [[Google]] の [[AI Operator]](自律的な一次対応・アクチュエーション付き)と対比。Bits AI SRE は「調査→コード修正 PR 提案→人間レビュー」という人間ゲートを維持する点で権限委譲の保守性を保つ。 - 「プロンプト不要の自律起動」が産業製品として明言される: "Unlike chat-based assistants requiring manual prompting, Bits operates as a deep research agent." ## 関連 - エンティティ: [[Datadog]] / [[AI Operator]](Google の対比) / [[Stratus]] - 概念: [[根本原因分析]] / [[agentic SRE]] / [[SRE Benchmark]] / [[AIOps]] / [[インシデント管理]] - ソース: [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] / [[@2025__Datadog__Introducing Bits AI SRE]] - 関連 MOC: [[LLM for SREの障害原因診断論文の分類]] / [[SRE - MOC]] ## 出典 - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]（技術的内部設計） - [[@2025__Datadog__Introducing Bits AI SRE]]（GA 発表・プレビュー機能、2025-06-10 公開）