@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations

# AI in SRE: How Google is Engineering the Future of Reliable Operations Navigation: [[index]] | [[sources/_index]] | [[hot]] ## 概要 Google SRE による産業界のホワイトペーパー。AI コーディングアシスタントが開発速度を加速(4 倍の生産性向上を標榜)した結果、従来の手作業中心の SRE が持続不能になるという問題意識から、Google が**自律エージェント・実行ガードレール・評価パイプライン**で SRE をどう再発明しているかを提示する。本 wiki に**初めて入る産業界・本番運用の一次情報**であり、これまで学術ベンチマーク([[AIOpsLab]]・[[SREGym]]・[[ITBench]])一色だった所に、実運用での自律度のガバナンスと安全工学の視点を加える。(Source: [[.raw/articles/ai-engineering-reliable-operations-2026-06-03]]) > [!key-insight] 産業界の「自律度の段階化」という新しい軸 > 学術ベンチマークがエージェントの**タスク成功率**(detection/RCA/mitigation の正答)を測るのに対し、Google は**自律度の成熟度**を L0–L4 で段階化し、各レベルへの昇格を実証された信頼性に紐づける。「どこまで人間を外せるか」を運用の中心的な問題に据える点が学術系と対照的(詳細は [[SRE AI Autonomy Levels]])。 ## 統治: Governing AI in Production Operations ### Safety Trifecta(統治の 3 本柱) - **Transparency**: AI は意思決定の連鎖・推論ステップ・確信度をログに残す。 - **Real-time Risk Evaluation**: アクションの前に本番の状況を文脈に応じて評価する。「cell を drain するアクションは平常時は低リスクだが地域のピーク時には高リスク」のように、同じ操作でも文脈でリスクが変わる。 - **Progressive Authorization**: 実証された信頼性に応じて段階的に自律度を上げる([[SRE AI Autonomy Levels]] の昇格基準そのもの)。 ### Architectural Guardrails - アンビエントなアクセスを与えず、人間とは別の最小権限の認証情報を用いる。エージェント専用のレート制限とサーキットブレーカー。 - **dry-run の必須サポート(`dry_run=true`)**、ゼロトラスト・デフォルトで安全なアクチュエーションを、委譲されたコントロールプレーン経由で行う。 - エージェントの identity を人間の principal と分離し、変更不能な監査証跡で監査可能性・否認防止を担保する。 ## SRE AI Autonomy Levels(L0–L4) 5 つの軸(Monitor / Investigate / Mitigate / Actuate / Self-Direct)が Human から Auto へ移る度合いで L0(全手動)〜L4(完全自律)を定義する。詳細・他フレームワークとの対比は概念ページ [[SRE AI Autonomy Levels]] に集約する。 ## SRE ライフサイクルにわたる AI(主要システム) | システム | 役割 | レベル/効果 | |---|---|---| | [[Detectr]] | Gemini 駆動。ユーザフィードバック(SNS・サポート・フォーラム)から障害を検知 | テレメトリが見逃す障害を検知。顧客影響を累計数百時間削減 | | AI Alert | アラートを約 2 分で捕捉し、監視・ログ・change log・依存グラフを並列にクエリ。証拠に基づく洞察を合成 | L1 段階の付加情報 | | Incident Hypothesis | LLM+RAG で監視異常・プレイブック・ログ・類似の過去事例から仮説を合成 | **MTTM 10% 削減** | | InvD (Investigation Dashboards) | インシデント固有の UI をオンデマンド生成。4 段階(異常検知→相関→調査価値→RCA) | ML 異常検知で **findings 195% 増**、**MTTM 約 44% 削減** | | Antigravity CLI | [[Model Context Protocol]] 経由の自然言語インターフェース。監視・ログ・緩和を起動 | L1 支援。モジュール化された Skills | | [[AI Operator]] | first-responder のエージェント。並列調査・Chain of Thought・サブエージェントの spawn | **L2/L3 で稼働中** | | [[Actus]](Mitigation Safety Verification Agent) | 統一されたコントロールプレーン兼セーフティゲートウェイ。dry-run・Red Button | アクチュエーションの安全境界 | 設計原則: **推論([[AI Operator]])とアクチュエーション([[Actus]])を分離**し、安全制御をモデルの進化から独立に保つ。 ## 評価データとメモリ - **品質 3 階層**: Bronze(autolabeler のヒューリスティック)/ Silver(プログラム生成、Gold に較正)/ Gold(人間の専門家が検証)。 - **Continuous Nightly Evals**: 実インシデントの rolling dataset に対する自動テスト。 - **LLM-as-a-Judge**: 定性的な推論の評価と決定的なスコアのハイブリッド。自動的なアクションを Golden Data の人間の応答と比較し、失敗には批評(critique)と実装計画を自動生成する。 - **True vs Observed Precision**: 不完全な訓練データを勘案する統計的な較正。 - 全実行トレースを Spanner に保存する。 ## 将来: Agentic SDLC のオーバーサイト - コードレビューは 4〜10 倍のコード量に追従できない。オーバーサイトを Designs/Intent/Policies のレビューへ移し、コード生成前に AI と仕様を共著する。 - **Independent Harnesses**(コード生成とテスト定義のエージェント分離で交差バイアスを防止)、**Adaptive Progressive Rollouts**(機械速度の継続的な本番検証で静的な soak time を置換)。 - **Intervening Pull Request Problem**: 高速なデプロイ下でロールバックは重要な修正を巻き戻すリスクがある。解は dynamic config / feature flag による即時無効化と **AI-Assisted Fix-Forward**(並行する進捗を巻き戻さない標的パッチの自動生成)。 ## 既存 wiki との関係・テンション > [!contradiction] 産業界の自律緩和の実績 vs 学術ベンチの能力天井 > 本ソースは Google が **L2/L3 の自律緩和を本番(Cloud/Ads/YouTube/Search)で稼働済み**と主張する。一方 [[SREGym]]・[[AIOpsLab]] はフロンティアモデルでも緩和の成功が伸びず(最高でも 6 割前後)、自己修復が 5〜20 ステップで頭打ちになり、全エージェントが貪欲なアプローチに陥ると報告する。「本番で自律緩和が回っている」と「ベンチでは頭打ち」のギャップは、(a) Google が軽微なインシデントに限定し重厚なガードレール([[Actus]]・dry-run・Red Button)で安全網を張っているため、(b) 産業界の評価指標(自律度の成熟・MTTM 削減)と学術の指標(タスク正答率)が別物のため、のいずれか/両方で説明されうる。要追跡。 - 安全工学の符合: Google の dry-run/Red Button/Actus による「安全なアクチュエーション」は、[[Stratus]] が形式化した安全仕様 [[Transactional No-Regression]] の産業実装に相当する(両者とも「安全に試して、まずければ止める/巻き戻す」)。 - 評価の符合: Google の **LLM-as-a-Judge**(自動的なアクションを Golden Data と比較)は、[[SREGym]] の checklist-based LLM-as-a-judge と同じ評価機構が産業・学術の双方で採られている例([[SRE Benchmark]] 参照)。 ## 関連 - 概念: [[SRE AI Autonomy Levels]] / [[agentic SRE]] / [[AIOps]] / [[Transactional No-Regression]] / [[SRE Benchmark]] / [[障害予測]] - エンティティ: [[Google]] / [[AI Operator]] / [[Actus]] / [[Detectr]] / [[Model Context Protocol]] - 関連 MOC: [[LLM4SRE - MOC]] / [[SRE - MOC]] / [[Project AI4SRE - MOC]] ## 出典 - [[.raw/articles/ai-engineering-reliable-operations-2026-06-03]](原本: sre.google, fetched 2026-06-03)