# SRE Benchmark ## 定義 SRE Benchmark は、AI の SRE エージェントが本番相当の障害を診断・緩和できるかを測る評価基盤。静的な Q&A や異常検知/RCA 用の静的データセットと異なり、ライブな(live)システム環境を公開し、エージェントが反復的にシステムを probe・観測しながら障害を解決する過程を評価する系統が近年の主流である([[AIOpsLab]]・[[ITBench]]・[[SREGym]])。静的データセットは緩和タスクを支えられないため、ライブ環境が要件となる。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) ## 横断的知見 - **評価分解 vs end-to-end**: [[AIOpsLab]] は障害を detection / localization / RCA / mitigation の 4 つの独立サブ問題に分解して個別採点する。[[SREGym]] は同じライフサイクルを end-to-end の単一ループで holistic に評価する。能力の切り分け(AIOpsLab)か現実の障害対応への忠実度(SREGym)かで設計思想が分かれる。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **診断 oracle の設計**: [[AIOpsLab]] は localization の success を「fault microservice 名のラベル厳密一致(is_exact_match)」で判定し brittle。[[SREGym]] はこの brittle さを避け checklist-based LLM-as-a-judge(人間と κ=0.90)を採る。oracle が exact-match → topology-aware matching([[ITBench]])→ checklist-based LLM judge と進化している。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **fault 注入機構**: [[AIOpsLab]] は症状を [[ChaosMesh]] で、根本原因を独自の functional fault library で注入するが application/virtualization 層が中心。[[SREGym]] は「症状でなく fault を注入する」を設計原則に掲げ、OS/hardware kernel・misoperation 層まで拡張し ambient noise も加える。chaos engineering ツールの位置づけがベンチマーク間で分かれる。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **問題の拡張機構**: [[AIOpsLab]] は `LocalizationTask` 等を extend して問題を追加(エージェント登録 <100 行)。[[SREGym]] は 50 fault primitive × 139 service = 3,623 の実行可能 (fault, target) ペアの composability で問題を量産(curate 済み 90 問は ~2.5%)。両者ともプログラム的拡張を志向するが、SREGym は組合せ爆発を明示的な multiplier として設計に取り込む。(Source: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **複数ベンチマーク横断の評価が標準化しつつある**: [[Stratus]] 一次論文は単一ベンチでなく [[AIOpsLab]] と [[ITBench]] の**両方**で mitigation 成功率を測り、SOTA を各種モデルで少なくとも 1.5 倍上回ると主張する。エージェント論文が複数の SRE ベンチで横断評価する慣行が立ちつつあり、ベンチ間の比較可能性(タスク定義・oracle・成功判定の差)が次の論点になる。なお [[ITBench]] 主導著者 [[Saurabh Jha]] は Stratus 共著者でもあり、ベンチ作者とエージェント作者が近接している。(Source: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **「緩和だけ」を切り出す専門ベンチの登場**: [[AIOpsLab]]・[[SREGym]] はライフサイクル全体(detection→…→mitigation)を被覆するが、[[MicroRemed]] は診断レポートを所与として**緩和段だけ**を「実行可能 Ansible playbook の生成(E2E-MR)」として切り出す。localization/RCA から緩和を decouple することで緩和能力を純粋に測れる反面、診断誤差の伝播という現実は捨象する(設計の分化は [[障害緩和]] に詳述)。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **chaos engineering ツールの位置づけがさらに分岐**: 「fault 注入機構」の知見に [[MicroRemed]] が第 3 の立場を加える。[[SREGym]] は [[ChaosMesh]] を「症状しか注入しない」と避けるが、MicroRemed は逆に chaos injection([[ChaosMesh]])を resource/network 系 fault の主注入手段として積極採用し、設定系は configuration injection で補う。緩和(回復できたか)を測るなら症状注入で足りるが、RCA(根本原因を当てたか)を測るなら不十分、という評価対象の違いが立場差を生む。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **execution-based / state-based 検証の合流**: [[MicroRemed]] は注入 fault のみを標的検査して回復を判定し検証精度 100% を主張、[[SREGym]] は alert 抑制でなく state ベースで緩和成功を判定して reward hacking を防ぐ。緩和の成功判定が「出力のもっともらしさ」から「実環境の状態回復」へ統一されつつある。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **LLM-as-a-Judge が学術・産業の双方で評価機構になった**: [[SREGym]] は診断成功を checklist-based の LLM-as-a-judge(人間と κ=0.90)で判定し exact-match の brittle さを避ける。[[Google]] も本番の自律 action を **LLM-as-a-Judge** で Golden Data(人間応答)と比較し、失敗に critique と実装計画を自動生成する。oracle が exact-match → topology-aware matching → LLM-as-a-judge と進化する流れが、研究ベンチだけでなく産業の continuous evaluation でも同じ機構に収束している。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **固定ベンチの一発評価 vs 産業の continuous eval**: 学術ベンチが curate 済みの固定問題集([[SREGym]] 90 問・[[AIOpsLab]] 48 問)で一発評価するのに対し、[[Google]] は実インシデントの rolling dataset に対する **Continuous Nightly Evals** を回し、評価データを Bronze(autolabeler)/ Silver(プログラム生成・Gold に較正)/ Gold(人間検証)の品質 3 階層で管理し、True vs Observed Precision で不完全な訓練データを統計的に較正する。評価軸が「固定ベンチでの能力比較」から「本番に追随し続ける継続評価とデータ品質管理」へ広がっている。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **産業の評価は「実インシデントの archived telemetry + LLM judge」に収束**: [[Datadog]] は [[Bits AI SRE]] を **数百件の real production incident** で評価し、human responder がラベル付けした実 incident の archived telemetry をエージェントに供給して再生し、LLM judge が結論を採点(pass/fail で人間判断と整合)、バージョン横断で改善を追う。これは [[Google]] の rolling dataset への continuous eval + LLM-as-a-Judge と同じ骨格で、産業の 2 例がともに「合成 fault でなく**過去の実インシデントを再生**し、LLM judge で人間整合の pass/fail を出す」評価に収束している。学術ベンチが合成 fault のライブ注入([[SREGym]]・[[AIOpsLab]])で再現性と難易度制御を取るのと対照的に、産業は手元の実インシデント資産を archived telemetry として再利用する。(Source: [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]], [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) ## 未解決の問い - 高忠実度の指標とは何か。SREGym は noise・低位層 fault・metastable/concurrent/correlated の障害モードを「忠実度」の軸に置くが、忠実度を定量化する合意された尺度はあるか。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 診断 oracle: ラベル厳密一致(brittle)→ topology-aware matching(高コスト)→ checklist-based LLM-as-a-judge と進化したが、LLM-as-a-judge の安定性・公平性をどこまで担保できるか(SREGym は人間と κ=0.90)。 - reward hacking 対策(fault-injection plane の隠蔽、alert 抑制でなく state ベースの緩和判定)はどこまで一般化できるか。既存ベンチの「pod-restart で 44% 解ける」問題をどう恒久的に塞ぐか。 - chaos engineering ツールは「症状」を注入するため SRE 評価には不適とされる。では「fault(根本原因)」を注入する injector のカバレッジを実世界の障害分布にどう合わせるか。 - step/予算の設定: [[AIOpsLab]] は環境フィードバックによる self-repair が 5〜20 step で saturate すると示す(Figure 5)。ベンチマークは step limit やトークン予算をどう設定すればエージェントの能力差を公平に測れるか。([[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - 複数ベンチ横断の「少なくとも 1.5 倍」([[Stratus]])のような主張をベンチ間で比較するには、タスク定義・成功 oracle・モデル設定の差をどう正規化すればよいか。ベンチ作者がエージェント作者を兼ねる場合([[Saurabh Jha]])の評価の独立性をどう担保するか。 - 緩和を診断から decouple する([[MicroRemed]] は診断レポートを所与に playbook 生成を測る)のと、診断→緩和を end-to-end で測るのとでは、どちらが現実の SRE 緩和能力を妥当に評価するか。診断誤差の伝播を含めない評価は緩和を過大評価しないか。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - chaos injection(症状)で足りるか、fault injection(根本原因)が要るかは「何を測るか」に依存する([[MicroRemed]] は緩和に chaos injection を採用、[[SREGym]] は RCA のため避ける)。緩和専門ベンチで chaos 注入を使うことの妥当性と限界(症状だけ消して根本原因が残る緩和を成功と誤判定しないか)。 - 学術ベンチのスコア(SREGym/AIOpsLab で最高 6 割前後)と [[Google]] の本番自律緩和(L2/L3 稼働)の実績は、どうすれば同じ土俵で比較できるか。固定問題集の正答率と、本番 rolling dataset での continuous eval(自律度・MTTM 削減)は別の量を測っており、産業の主張を学術ベンチで再現/反証する方法論はあるか。([[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) ## 関連 - ソース: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] / [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] / [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] / [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]] - 概念: [[agentic SRE]] / [[AIOps]] / [[根本原因分析]] / [[障害緩和]] / [[SRE AI Autonomy Levels]] - エンティティ: [[SREGym]] / [[AIOpsLab]] / [[ITBench]] / [[Stratus]] / [[MicroRemed]] / [[Google]] / [[Bits AI SRE]] / [[DeathStarBench]] / [[ChaosMesh]] / [[Train-Ticket]] / [[Online-Boutique]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]] / [[SRE論文紹介リスト]] ## 出典 - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](§1, §2, §4 Related Work, Appendix B) - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](§2 Design, §3 Evaluation, Table 1–4) - [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](Abstract) - [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]](§3.1–3.3, §5, Table 1) - [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](Evaluation Data and Memory) - [[2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]](Evaluation & Benchmarking)