agentic SRE - yuuk1's Digital Garden

# agentic SRE ## 定義 agentic SRE は、本番システムの障害調査・診断・緩和を AI エージェントが実行する取り組みである。一般的なコード生成エージェントと異なり、マルチモーダルなオブザーバビリティデータ、運用ツール、実行時にしか結果が見えない緩和操作、安全な権限委譲を扱う必要がある。([[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) 本ページは親ページとして、評価・安全・自律度・主要失敗モードの地図を持つ。RCA 詳細は [[根本原因分析]]、緩和詳細は [[障害緩和]]、安全仕様は [[エージェント運用安全性]] と [[Transactional No-Regression]] に分ける。 ## 横断的知見 - **AIOps と agentic SRE は重なるが視点が違う**: [[AIOps]] は IT 運用タスクの AI 化を能力別に整理し、agentic SRE は SRE 実務の調査・緩和ループをエージェントとしてどう動かすかに焦点を置く。 - **主要な失敗モードは情報取得と仮説管理に集中する**: AIOpsLab は不要な tool call とテレメトリ過消費を、SREGym は最初のもっともらしい異常への固着を報告する。([[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **安全な探索が緩和性能の鍵になる**: [[Stratus]] の [[Transactional No-Regression]] は、巻き戻し可能な試行で緩和探索を安全にする。単発の修正生成ではなく、実行・検証・undo を含む制御ループが必要になる。([[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **産業実装はカバー範囲で分化する**: Google の AI Operator は自律緩和やアクチュエーションまで踏み込む一方、Datadog の Bits AI SRE は調査・RCA に注力する。([[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) - **SRE Book は前史である**: エラーバジェット、トイル削減、自動化ヒエラルキー、Effective Troubleshooting は、agentic SRE が自動化しようとしている作業構造を先に定義している。([[@2016__OReilly__SRE Book - Chapter 1 Introduction]], [[@2016__OReilly__SRE Book - Chapter 7 Automation at Google]]) - **自律 SRE エージェントの初期実用化は、緩和よりも診断補助で始まっている**: [[RCAgent]] は Alibaba Cloud の Flink OoD ジョブ診断で、人間 SRE に RCA 結果を渡すフィードバック機構として統合された。[[Bits AI SRE]] も調査・RCA 特化であり、[[Stratus]] や Google AI Operator のように実行・緩和まで踏み込む系統とは権限面が異なる。agentic SRE は「人間診断を速くする読み取り中心エージェント」と「システムを変更する書き込み権限付きエージェント」に分けて評価すべきである。(Source: [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **agentic SRE のスコープは RCA に閉じず SDLC 全体に広がる**: 学術ベンチが「RCA/mitigation の成功率」に閉じていたのに対し、Google SRE は SRE AI の適用領域を (1) reliability design(プレイブックの利用実態に基づく継続改善とインシデントからの新規生成)・(2) anomaly detection & alerting(時系列基盤モデル [[TimesFM]] による静的閾値の脱却 + autonomous alert handlers)・(3) incident management(IMAG への agentic orchestration layer: コミュニケーション監視/SRE 間ハンドオフ文書/ポストモーテム下書き/内外通信)・(4) incident investigation(自律調査・緩和)・(5) insights & risk management([[AI Insights]] による過去事例の連続知識化 + risk category 注釈)の 5 領域に広げる。学術ベンチ([[SREGym]]/[[AIOpsLab]])の評価軸を「SDLC 全体の自動化度」へ拡張する必要を示唆する。(Source: [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]], [[SRE AI Autonomy Levels]]) - **本番 agentic SRE スタックの「外向き表記」が一次資料として固定された**: Google SRE AI の本番スタックが Gemini(社内ファインチューン版を含む)+ [[Gemini Enterprise Agent Platform]](旧 Vertex AI、リブランドが本ブログで一次確認)+ [[Agent Development Kit]](ADK)+ MCP servers + BigQuery + vector DB と明示された。これは whitepaper が社内コードネーム([[Detectr]]/[[AI Operator]]/[[Actus]])で語っていた同じシステムを、**外部開発者が真似て構築できる公開製品名で**示し直す位置にある。agentic SRE の研究と外部実装に「再現可能な部品リスト」が初めて公式情報として開示された。(Source: [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **エージェント導入は緩和対象を減らすだけでなく、複雑性を足す**: Brush は、AIOps が解の一部である一方、非決定的に振る舞う別システムを既存システムに足すため、元のシステムより複雑になると警告する。これは Google SRE AI の段階的自律度設計や Stratus の TNR が示す「書き込み権限付きエージェントには検証・巻き戻し・ゲートが必要」という安全設計と同じ方向で、agentic SRE を単なる自動化ではなく複雑性管理の問題として扱うべきことを補強する。(Source: [[@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **産業実装ではユーザー共感とツール集約が AI 統合の前提条件になる**: Databricks の [[Storax]] 事例では、AI エージェントを導入する前に社内 on-call エンジニアへのインタビューと同行観察を行い、バラバラなツールとコンテキストを集中化した。最初のイテレーションは AI をほぼ使わなかった。AI エージェントは「技術的に正しいアーキテクチャ」だけでは採用されない——ユーザーとの信頼関係とエージェントが依拠する情報基盤の整備が先行条件になるという示唆は、[[RCAgent]](Alibaba)や [[Bits AI SRE]](Datadog)の「診断補助から始める」段階論と重なる。(Source: [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]], [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) - **承認ゲートの粒度設計が産業実装の安全性を決める**: [[Storax]] は Temporal ワークフローで DB 操作に2人目承認ゲートを設ける設計を採る。[[Stratus]] の Transactional No-Regression が「モデル内部仕様で書き込みを安全にする」方向と違い、Storax は「LLM が実行判断→Temporal が実行制御→人間が最終承認」という外付けワークフローで安全性を保証する。同一の問題意識に対して、モデル内部仕様と外付けワークフローエンジンという異なる解を産業実装が採っていることが確認できる。(Source: [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **実務導入の入口は「本番変更を任せる」より「SRE 判断を下支えする」段にある**: Yoshikawa の資料は、SLI/SLO 候補提案、PRC 観点レビュー、障害対応中の状況要約、ポストモーテム下書きという、書き込み権限より前の SRE 判断支援を具体例に置く。これは Storax や Bits AI SRE が診断補助から始めるパターンと整合し、agentic SRE の普及経路が L1-L2 の人間承認付き補助から始まることを補強する。(Source: [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]], [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) - **調査エージェントから修正エージェントへの拡張が産業製品レベルで始まった**: [[Bits AI SRE]] の Bits AI Dev Agent（プレビュー）は、根本原因を特定した後にコード修正を提案し PR を生成する。これは「読み取り中心の診断エージェント → 書き込み権限付きの修正エージェント」への最初の公開産業実装であり、[[AI Operator]]（Google）がアクチュエーションまで踏み込む方向と異なり、PR レビュー・マージという人間ゲートを維持する保守的な拡張パターンを採る。(Source: [[@2025__Datadog__Introducing Bits AI SRE]]) - **プロアクティブ調査トリガーが産業製品で明示された**: アラート（リアクティブ）に加え、合成 API テスト・APM Watchdog ストーリー（プロアクティブ）を調査起動点とする設計が [[Bits AI SRE]] のプレビューで示された。これは agentic SRE の評価軸を「インシデント後の RCA 精度」から「障害顕在化前の潜在リスク検知」へ広げる動きであり、[[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models|ARGOS]]（LLM ルール生成によるプロアクティブ異常検知）と方向性が一致する。(Source: [[@2025__Datadog__Introducing Bits AI SRE]], [[@2025__arXiv__ARGOS - Agentic Time-Series Anomaly Detection with Autonomous Rule Generation via Large Language Models]]) - **調査間の文脈記憶が産業実装の継続改善を担う**: Bits AI SRE は調査ごとに記憶を蓄積し、エンジニアのフィードバックで性能ループを形成する。学術ベンチは単発の成功率を測るが、産業実装では「複数インシデントを経て性能が向上するか」が実用的な評価軸となる。この知識蓄積の仕組みは [[RCAgent]] の human feedback 機構と同じ方向にあり、agentic SRE の評価は「単発精度」から「反復改善速度」を加えた多軸に移行する可能性を示す。(Source: [[@2025__Datadog__Introducing Bits AI SRE]], [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]]) - **評価駆動開発が「オンコール補助エージェント」の産業実装で具体化した**: [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]] は、チケット説明と期待仮説を対にしたベンチマークデータセットを構築し、Promptfoo によるオフライン評価とユーザーフィードバック(サムズアップ/ダウン)をフライホイールとして回す。これは Bits AI SRE の反復改善パターンや Storax のユーザー共感先行論と同じ「診断補助から始めて継続的にプロンプトを鍛える」路線であり、agentic SRE の評価軸を「単発精度」から「反復改善速度」へ拡張する具体例をもう一件加える。(Source: [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]], [[@2025__Datadog__Introducing Bits AI SRE]], [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]]) - **時系列データを画像として渡す方が、CSV/JSON で渡すより異常検知の推論精度が高い**という DeepMind の知見を根拠に、Amazon の実装は Grafana の image renderer プラグインでダッシュボードを画像化してエージェントに渡す設計を採る。同一グラフに対し人間が「10分の低下」、エージェントが「12分の低下」と近い水準で推論できた例を示しており、マルチモーダル入力が human-agent の共通理解を成立させる具体的な設計判断として、agentic SRE のオブザーバビリティデータ取り扱いに新しい選択肢を加える。(Source: [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]]) ## 未解決の問い - 学術ベンチの成功率と産業実装の MTTM/TTR 改善は、どうすれば同じ物差しで比較できるか。 - LLM エージェントに複数仮説の並行検証と明示的な停止条件をどう実装するか。 - 緩和が「たまたま直った」ケースと、正しい診断に基づく修復をどう区別して評価するか。 - 自律度を上げるためのガードレールは、モデル内部の仕様(TNR)と外付けゲート(Actus/verification wall)をどう組み合わせるべきか。 - RCAgent の H-Helpfulness は 2.92/5 で「中程度の支援」にとどまる。読み取り中心の診断エージェントは、どの有用性閾値を超えたときにオンコールの標準ワークフローへ組み込むべきか。 - エージェントがコードベース全体から低コストにリスクを発見・修正できるとき、agentic SRE の評価は「重大インシデントを直せるか」だけでなく「小さな潜在リスクを継続的に減らせるか」をどう測るべきか。 ## 関連 - 子/隣接 concept: [[SRE Benchmark]] / [[エージェント運用安全性]] / [[SRE AI Autonomy Levels]] / [[Transactional No-Regression]] / [[根本原因分析]] / [[障害緩和]] / [[自動化のアイロニー]] / [[データベース O&M]] - 産業実装 entity: [[Storax]] (Databricks) / [[Bits AI SRE]] (Datadog) / Google AI Operator - 親/周辺: [[AIOps]] / [[SRE]] / [[NetOps]] - ソース: [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]] / [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] / [[@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos]] / [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]] / [[@2025__Datadog__Introducing Bits AI SRE]] ## 出典 - [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] - [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] - [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] - [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]](SDLC 全体のスコープ、本番スタック公開製品名、AI Insights、TimesFM、IMAG agentic orchestration layer) - [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] - [[@2016__OReilly__SRE Book - Chapter 7 Automation at Google]] - [[@2024__CIKM__RCAgent - Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models]] - [[@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos]] - [[@2026__SREcon26 Americas__How We Debug 1000s of Databases with AI]](産業実装、Storax、ユーザー共感先行論、承認ゲート設計) - [[@2025__Datadog__Introducing Bits AI SRE]](GA 発表、Bits AI Dev Agent プレビュー、調査トリガー拡大、文脈記憶)