# agentic SRE ## 定義 agentic SRE は、本番システムの障害を AI エージェントが診断し緩和する営みを指す。コーディングや一般のソフトウェア工学(SWE)とは異なる能力を要し、エージェントは multi-modal な observability データ(システム設定・時系列メトリクス・非構造ログ・分散トレース)を横断して推論し、ドメイン固有ツールを操作し、結果が実行時にしか観測できない多段の緩和計画を実行しなければならない。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) [[AIOpsLab]] は同じ営みを AIOps の文脈で **AgentOps**(Agent for Operations)と呼び、LLM エージェントがインシデントライフサイクル全体を自律管理して自己修復クラウドを実現する構想を描く。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) ## 横断的知見 - **呼称の対比**: [[SREGym]] は LLM エージェントによる障害診断・緩和を agentic SRE と呼び、[[AIOpsLab]] は同じ営みを AgentOps(Agent for Operations)と呼ぶ。SRE 文脈と AIOps 文脈で別名が立つが、指す対象(LLM エージェントによる自律的インシデント管理)は重なる。([[AIOps]] も参照)(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **失敗モードの一致**: 独立した 2 ベンチマークが似た失敗を観測する。[[AIOpsLab]] はエージェントが不要な action でステップを浪費し、過多な telemetry で context window を圧迫し、fault 無し環境で false positive を出すと報告(§3.6)。[[SREGym]] は全エージェントが greedy approach(最初のもっともらしい異常に固着し競合仮説を作らない)に陥ると報告。いずれも「情報を取りすぎる/最初の仮説に固執する」ことで効率と正確性を落とす点で共通。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **telemetry 選別が性能の鍵**: [[AIOpsLab]] は成功するエージェントほど get_metrics/get_traces を必要時のみ控えめに使うと観測する(雑に消費すると distraction とトークン枯渇を招く)。[[SREGym]] の [[Stratus]] は observability を前処理して関連データのみ LLM に渡し、汎用 coding エージェントより遥かに少ないトークンで動く。telemetry の取捨選択がエージェント性能を左右する点で一致。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **「安全な探索」が緩和性能を押し上げる**: 緩和は本質的に試行錯誤(実行時にしか結果が観測できない多段計画)であり、ベンチマーク側の観測とエージェント側の設計が同じ結論に収束した。[[SREGym]] は最高性能の [[Stratus]](Sonnet-4.6)を **undo-and-retry 機構**ゆえと観測し、[[Stratus]] 一次論文は同じ機構を安全仕様 [[Transactional No-Regression]] (TNR) として形式化して「safe exploration が autonomous mitigation を改善する」と主張する。緩和を 1 発勝負でなく安全に巻き戻せる反復にすることが鍵。[[ThinkRemed]]([[MicroRemed]] の multi-agent 手法)も同方向で、reflection(失敗からの再生成)が one-shot 生成(SoloGen)を平均 +7.07% 上回り、ablation で reflection(除去 -7.16%)が probe(除去 -1.57%)より寄与大と示す。3 つの独立した系([[Stratus]]・[[SREGym]]・[[MicroRemed]])が「反復と反省」を緩和性能の源泉と位置づける。(Source: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]], [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - **multi-agent の役割分割が収束しつつある(Coordinator / Probe / Execution / Verification)**: [[ThinkRemed]] は緩和を 4 エージェント — 推論統括の Coordinator、runtime 情報を動的収集する Probe、playbook を実行する Execution、回復を判定する Verification — に分割し reasoning–action–reflection ループで回す。[[Stratus]] の探索→緩和→検証の流れと同型で、「観測(probe)・行動(execute)・検証(verify)・反省(reflect)」を別エージェントに割る設計が複数手法で共通化してきた。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **「情報を取りすぎる」害が緩和でも再確認された**: 「telemetry 選別が性能の鍵」と同根の現象を [[MicroRemed]] が緩和の文脈で再現。probe agent を除去すると一部設定でむしろ精度が上がり、現行モデルの contextual reasoning が限られるため過剰 probing がノイズで最終 playbook を誤らせると分析する。greedy 固着([[SREGym]])・telemetry 過消費([[AIOpsLab]])・過剰 probing([[MicroRemed]])は同じ「制御されない情報取得が害になる」病理の別表現。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **産業界は「能力」でなく「自律度の段階化」で語る**: 学術系([[SREGym]]・[[AIOpsLab]]・[[MicroRemed]])が agentic SRE をエージェントの**タスク成功率**で測るのに対し、[[Google]] は同じ営みを [[SRE AI Autonomy Levels]](L0–L4)という**権限委譲の段階**で統治し、推論([[AI Operator]])と actuation([[Actus]])を分離して安全制御をモデル進化から独立させる。学術が「どれだけ解けるか」を問うのに対し産業は「どこまで人間を意思決定ループから外せるか」を問う。両者は直交する縦軸で、agentic SRE の成熟を能力軸と権限軸の両方で捉える必要がある。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **産業界の 2 例は「被覆する段」が分かれる(全ライフサイクル vs 調査・RCA 特化)**: 産業の一次情報が 2 例に増え、攻める段が分かれた。[[Google]] の [[AI Operator]] は detection→mitigation→actuation まで被覆し L2/L3 の自律緩和を主張するのに対し、[[Datadog]] の [[Bits AI SRE]] は**調査・RCA 段に特化**し緩和は将来の specialist agent 統合に委ねる。Google が自社運用の whitepaper(運用者視点)、Datadog が監視ベンダの製品(顧客 telemetry を入力に取る視点)という立場差も、被覆範囲の差(緩和まで踏むか診断で止めるか)に対応する。産業実装は一枚岩でなく「どの段を自律化するか」で分化している。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - **産業の TTR/MTTM 主張は学術ベンチと比較不能のまま積み増す**: [[Datadog]] は [[Bits AI SRE]] が time-to-resolution を**最大 95% 削減**と主張し、[[Google]] も InvD で MTTM 44% 減等の運用指標を出す。いずれも本番の **operational metric**(解決時間短縮)で、学術ベンチの**タスク正答率**(最高 6 割前後)とは測る量が異なり直接比較できない。産業の 2 例目が出ても「能力天井 vs 本番実績」のギャップ([[agentic SRE]] の contradiction)は埋まらず、operational metric を学術ベンチで再現/反証する方法論の不在が一層際立つ。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) > [!contradiction] 本番自律緩和の実績 vs ベンチの能力天井 > [[Google]] は L2/L3 の自律緩和を Cloud/Ads/YouTube/Search で**稼働中**と主張する一方、[[SREGym]]・[[AIOpsLab]] はフロンティアモデルでも mitigation が伸びず(最高 6 割前後)、self-repair が 5〜20 step で saturate すると報告する。(a) Google が軽微インシデント限定+重厚なガードレール([[Actus]]・dry-run・Red Button)で安全網を張っている、(b) 産業の指標(自律度・MTTM 削減)と学術の指標(タスク正答率)が別物、のいずれか/両方で説明されうる。要追跡。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) ## 未解決の問い - フロンティアのエージェント/モデルは、低位層(OS/hardware)の fault と複合障害で性能が大きく落ちる。hardware-software 相互作用や、system 制約と application トリガの結合を理解させるには何が必要か。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 全エージェントが greedy approach(最初のもっともらしい異常を停止基準にし、競合仮説を生成しない)に陥る。人間 SRE のような複数仮説の並行検証をどう促すか。 - 緩和は正診断なしでも症状の pattern-match や継続観測で成功し得る(P(M|¬D)=35–59%)。「正しく理解して直す」ことを「たまたま直る」と区別して報酬設計するには。安全仕様 [[Transactional No-Regression]] のような「後退させない」制約が reward hacking を抑制し得るか。 - [[Transactional No-Regression]] (TNR) の形式的定義・トランザクション境界・巻き戻し可能性の判定は取得テキスト未確認。状態を持つ緩和操作で no-regression がどこまで成立するか([[Transactional No-Regression]] 参照)。 - SRE エージェントは observability データを前処理する([[Stratus]])と汎用 coding エージェントより遥かに少ないトークンで動く。前処理/データ削減のどこまでが汎化可能か。 - 環境フィードバックと self-repair による改善は AIOps 問題で早期に頭打ちになる([[AIOpsLab]] Figure 5: 5〜20 step で saturate)。コード生成のような合成的フィードバック(linter/型検査/test)が効かない領域で、何がエージェントの反復改善を駆動するか。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - 反復 reflection の効きは逓減する([[MicroRemed]]: $T_{max}$ を増やすと精度は上がるが頭打ち、token は 100K 超まで膨張)。「何回まで反省させ、いつ probe を呼ぶか」を適応的に決める orchestration は、固定 budget より良い精度/コスト比を出せるか。([[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - 学術ベンチが示す能力天井(6 割前後・5〜20 step で saturate)と [[Google]] の「L2/L3 自律緩和を本番稼働」の主張のギャップは、評価指標の差だけで説明できるか、それとも軽微インシデント限定+ガードレールという運用設計の差が本質か。本番の自律緩和の成功率・対象範囲を測れる公開データはあるか。([[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) ## 関連 - ソース: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] / [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] / [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - 概念: [[SRE Benchmark]] / [[AIOps]] / [[根本原因分析]] / [[障害緩和]] / [[Transactional No-Regression]] / [[SRE AI Autonomy Levels]] / [[Metastable Failure]] - エンティティ: [[Stratus]] / [[SREGym]] / [[AIOpsLab]] / [[ThinkRemed]] / [[MicroRemed]] / [[AI Operator]] / [[Actus]] / [[Google]] / [[Bits AI SRE]] / [[Datadog]] / [[Tianyin Xu]] - 関連 MOC: [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]] / [[SRE - MOC]] ## 出典 - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](§1 Introduction) - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](Abstract, §1, §3.5–3.6) - [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](Abstract) - [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]](§4.2, §5, Appendix F/I) - [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](SRE AI Autonomy Levels, L3: Autonomous Mitigation) - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]](Investigation Workflow, Design Principles, Evaluation)