SRE AI Autonomy Levels - yuuk1's Digital Garden

# SRE AI Autonomy Levels ## 定義 SRE AI Autonomy Levels は、AI エージェントが本番運用に関与する自律度を **L0(全手動)〜 L4(完全自律)** の 5 段階で定義する Google の統治フレームワーク。自動車の運転自動化レベルに着想を得て、インシデント対応を 5 つの軸 ── Monitor(監視)/ Investigate(調査)/ Mitigate(緩和判断)/ Actuate(実行)/ Self-Direct(自己統御)── に分解し、各軸が Human から Auto へ移る度合いでレベルを決める。各レベルへの昇格は「実証された信頼性」に紐づく([[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]])。 | Level | Monitor | Investigate | Mitigate | Actuate | Self-Direct | |-------|---------|-------------|----------|---------|-------------| | L0 | Human | Human | Human | Human | Manual | | L1 | Auto | Auto | Human | Human | Assisted | | L2 | Auto | Auto | Human | Auto | Partial | | L3 | Auto | Auto | Auto | Auto | High | | L4 | Auto | Auto | Auto | Auto | Full | 昇格基準(Progressive Authorization): - **L0→L1**: ツールの可用性と採用。 - **L1→L2**: 信頼できる識別と安全な経路。 - **L2→L3**: 実証された精度・信頼・堅牢な安全制御。 - **L3→L4**: 多段の解決と end-to-end の管理能力。 L2 は「緩和の**判断**は人間がするが**実行**は自動」、L3 は「判断も実行も自動(ただし軽微なインシデントに限定)」という区別が肝で、[[Actus]] のような安全ゲートウェイによる実行の安全化が L2→L3 の前提になる。 ## 横断的知見 - **「タスク成功率」の学術系と「自律度の成熟」の産業系**: 学術ベンチ([[AIOpsLab]] の 4 段階分類、[[SREGym]] のエンドツーエンドの成功判定)はエージェントが検知/RCA/緩和を**正しく解けるか**を測る。対して本フレームワークは**どこまで人間を意思決定ループから外せるか**を L0–L4 で測る。前者は能力の縦軸、後者は権限委譲の縦軸で、評価している対象が直交する。(Source: [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **自律度の前提は安全工学**: L2→L3(緩和判断の自動化)を可能にするのは精度向上だけでなく「堅牢な安全制御」── dry-run・Red Button・[[Actus]] による委譲されたアクチュエーション。これは [[Stratus]] が形式化した安全仕様 [[Transactional No-Regression]](安全に試して巻き戻せる)と同じ発想で、産業・学術の双方が「自律性は安全に巻き戻せる実行とセットで初めて上げられる」という結論に収束している。(Source: [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **自律度の段階化を「権限契約 + 保証契約」として形式化し、ベンチで採点可能にする第 3 の系**: Google の L0–L4(定性的 5 軸表)・OSR の 3 段(co-pilot/semi-auto/fully-auto)に対し、[[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] は段を `Ak=(T^read,T^write,Gk)`(権限契約)・`Ck=(Tk,Rk,Gk,Uk,Bk)`(保証契約)として形式化し、その 5 段(L0 read-only copilot / L1 evidence-gathering analyst / L2 proposal agent / L3 bounded executor / L4 closed-loop self-healing)は Google の L0–L4 とほぼ対応する。重要なのは段への昇格判定を、Google が「実証された信頼性」と定性的に述べるのに対し、本サーベイは契約充足 `τ ⊨ Ck`(必須証拠の充足・予算遵守・ゲート非迂回・ロールアウト規律、式(44)-(46))という**ベンチマークで測定可能な性質**に落とす点。本ページの未解決の問い「各レベルへの昇格を判定する定量基準は本ソースでは未明示」に対し、本サーベイは「`τ ⊨ Ck` の充足率・ゲート違反率・拒否率(missing telemetry 下)」という測定可能な昇格基準の候補を与える([[エージェント運用安全性]] に詳述)。定性的統治(Google)・粗い段階化(OSR)・形式的契約(本サーベイ)が同じ権限委譲軸を別の精度で記述する。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **「Mitigate(判断)と Actuate(実行)の分離」が複数の枠組みで同型に現れる**: Google L2 の「緩和判断は人間・実行は自動」という分離は、[[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] の `T^write = T^propose ∪ T^exec`(式(2))——差分や変更要求を起草(propose)できるが適用(execute)はできない段を区別する——と同型。本サーベイの Planner–executor 段は「propose は許すが exec は verification wall を通過してからのみ」という形で、Google の L2(判断と実行の分離)を書き込みツールの権限分割として精密化する。本ページの未解決の問い「判断と実行を切り離せる前提は診断と緩和が不可分なインシデントで成立するか」に、サーベイは「propose 段の出力(diff + 前提条件 + rollback 計画)を人間が review bundle `R` として承認する」(式(18))という具体的な界面を与える。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **SRE を超えてクラウド管理一般でも同じ自律度の段階化に収束**: SRE(障害対応)に閉じず、クラウドインフラ管理(provisioning/updates/monitoring)のビジョン論文 [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]] も §3.3 で自律度を **co-pilot(人間補助)/ semi-autonomous(多段推論)/ fully-autonomous** と段階化し、「fully autonomous はなお困難、co-pilot と semi-autonomous は手が届く」とする。さらに guardrail(formal spec によるポリシー検査・access control・audit trail)・fault tolerance(rollback・self-healing)・human-in-the-loop fallback(スタック検知で制御を返す・閾値超過でアラーム・従来インターフェースを fallback に残す)を自律度の前提に置く。Google の L0–L4 が SRE のインシデント対応 5 軸を細かく刻むのに対し、OSR は粗い 3 段だが、「権限委譲には安全に巻き戻せる実行 + 人間の fallback が要る」という結論は同一。自律度の段階化が SRE 固有でなくクラウド管理全般の統治原理として立ち上がっている。(Source: [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **実務者視点の Trust Spectrum は Google L0-L4 の「人間側の準備度」軸を補完する**: [[Eddie Redick]] は SREcon26 Americas で、AI 自律度を技術的な能力段階(Google L0–L4)ではなく、**運用組織が AI をどこまで信頼して任せられるか**という Trust Spectrum で定義した。Observe(AI を見守る・~60%)→ Advise(AI の推奨を受け入れる・~22%)→ Assist(AI が実行し人間が承認・~16%)→ Partner(双方向の相互信頼・未来)の 4 段階で、2026 年時点の業界の 60% が Observe 段階に留まることを産業調査で示した。L0–L4 は「AI が技術的に何ができるか」を刻む軸だが、Trust Spectrum は「組織が AI の自律行動を受け入れる準備ができているか」を刻む軸であり、直交する二軸として読める。高い L(技術力)があっても、組織の Trust Spectrum が Observe 段階なら実際の自律化は進まない。この関係は OSR の「co-pilot がまず手が届く段階」([[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]])とも整合し、技術的自律度の階段を組織的受容が追いかける構造を示す。(Source: [[@2026__SREcon26Americas__Human Factors in the Age of AI Ops]]) - **実務者向けの導入説明では L1-L2 実証と安全前提が一体で語られる**: Yoshikawa は Google SRE の L0-L4 表を引用し、いきなり L3-L4 を目指さず L1-L2 で実証して段階的に進むのが現実的だと整理する。併せて Safety Trifecta(透明性・実行時リスク評価・段階的権限付与)と Architectural Guardrails(No Ambient Access、Agentic Circuit Breakers、Mandatory Dry-Run、Zero-Trust Safe-by-Default Actuation)を掲げ、学術・Google 公式文書で抽象化された自律度モデルを、現場導入のチェックリストとして翻訳している。(Source: [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]], [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) ## 未解決の問い - L0–L4 は Google の定性的な枠組みで、各レベルへの昇格を判定する**定量基準**(必要な精度・成功実績の量・許容リスク)は本ソースでは未明示。学術ベンチの成功率(例: AIOpsLab のレベル別正答率)を昇格基準に写像できるか。 - 「Mitigate は Human だが Actuate は Auto」(L2)という分離は、緩和の**判断**と**実行**を切り離せる前提に立つ。診断と緩和が不可分なインシデント(実行してみないと正しさが分からない)で L2 は成立するか。[[agentic SRE]] の「緩和は実行時にしか結果が観測できない多段の計画」という性質と整合するか。 - L3 を「軽微なインシデント限定」とする境界(何を軽微とみなすか)は誰がどう決めるか。実時間でのリスク評価(同じ操作でも文脈でリスクが変わる)を自律度の判定にどう組み込むか。 - 他の自律度フレームワーク(自動運転の SAE レベル、エージェント型 AI 一般の自律度分類)と比較して、SRE 固有の 5 軸はどこまで一般化/特殊化されているか。 - Redick の Trust Spectrum(Observe/Advise/Assist/Partner)と Google L0–L4 の対応付けは直感的に可能だが、厳密な写像は未確立。Trust Spectrum の「Advise」は L1(Monitor Auto)か L2(Mitigate Auto も含まれるが判断は Human)に相当するか。組織の信頼度段階が先行して技術的自律度が後追いするのか、逆なのかも未整理。 - SRE のインシデント対応 5 軸(Google L0–L4)と、クラウド管理一般の 3 段(co-pilot/semi-auto/fully-auto, [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]])は写像できるか。provisioning/update のように「遅く高価で巻き戻しにくい」操作は、障害緩和より自律度を上げる難度が高い(OSR は探索を sandbox の test subscription に隔離して symbolic に検証することを提案)。タスク種別(診断 vs 構成変更)で自律度の天井は変わるか。 ## 関連 - ソース: [[@2026__SpeakerDeck__Reliability in the Age of AI - Engineering for AI Velocity]] / [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] / [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]] - 概念: [[agentic SRE]] / [[Transactional No-Regression]] / [[AIOps]] / [[SRE Benchmark]] / [[クラウド管理モダリティ]] / [[エージェント運用安全性]] / [[NetOps]] - エンティティ: [[Google]] / [[AI Operator]] / [[Actus]] / [[Ang Chen]] - 関連 MOC: [[LLM4SRE - MOC]] / [[SRE - MOC]] / [[Project AI4SRE - MOC]] ## 出典 - [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](SRE AI Autonomy Levels, Governing AI in Production Operations) - [[@2026__Google Cloud Blog__AI in SRE - Where Google is Deploying Agentic AI to Improve Operations]](L0–L4 を支える具体的なエージェント群と本番スタック、IMAG agentic orchestration layer のような Mitigate/Self-Direct 軸の分離実装) - [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]](§3.3 Agent guardrails: co-pilot/semi-autonomous/fully-autonomous, policy compliance, audit trails, fault tolerance, human-in-the-loop) - [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]](§I-B autonomy ladder 式(1)/(2), §IV-A/B autonomy rungs as capability contracts 表II, §IV-D review bundle 式(18), §IX-A assurance contract Ck 式(42)/契約充足式(44)-(46))