# AIOpsLab
自律クラウドを実現する AIOps エージェントを評価する holistic なフレームワーク。一次論文は [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]([[Yinfang Chen]] ほか, MLSys 2025; arXiv:2501.06706, 2025-01-12)。LLM エージェントがインシデントライフサイクル全体を自律管理する **AgentOps**(Agent for Operations)パラダイムを提唱した。
- **構成**: 中心の **Orchestrator** が エージェントとサービスの separation of concerns を強制し、**Agent-Cloud Interface (ACI)** として振る舞う。ACI は有効な action 集合とサービス状態の observation を規定し、`get_logs`/`get_metrics`/`get_traces`/`exec_shell` 等の簡潔な API を提供する。配備は Helm/Kubernetes、telemetry は Jaeger(traces)・Prometheus(metrics)・Filebeat/Logstash(logs)。
- **testbed**: [[DeathStarBench]] の SocialNetwork(28 microservices)と HotelReservation を配備。workload は wrk2。
- **fault library**: [[ChaosMesh]] を統合した symptomatic fault と、misconfiguration/software bug 等の fine-grained な functional fault の 2 系統。
- **task taxonomy**: detection / localization / RCA / mitigation の 4-level(上位ほど難。詳細は [[AIOps]])。各障害シナリオをこの 4 つのサブ問題に分解して個別採点する。
- **評価**: 48 問題・6 エージェント計 288 ケース。Flash が最高精度 59.32%、GPT-3.5-w-Shell は最速だが最低 15.25%。RCA・mitigation が最難。
- **後続エージェントの評価基盤として**: [[Stratus]]([[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])は AIOpsLab を [[ITBench]] と並ぶ評価ベンチマークに採り、mitigation 成功率で SOTA の SRE エージェントを各種モデルで少なくとも 1.5 倍上回ると報告。AIOpsLab がエージェント比較の de facto ベンチマークになりつつある。
## SREGym 視点での位置づけ
後続の [[SREGym]]([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]])は AIOpsLab を先行のライブベンチマークと位置づけつつ、(1) application/virtualization 層中心で OS/hardware kernel 層の fault を欠く、(2) 単一障害中心、(3) ambient noise が無い、(4) 障害を 4 サブ問題に分解する評価が end-to-end の現実から乖離、(5) localization の oracle がラベル厳密一致で brittle、と批判し、これらの克服を狙う。SREGym はその 90 問のうち一部を AIOpsLab から ported(n=34)している。
> [!contradiction] [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]の評価と一次論文の食い違い
> SREGym 由来の記述では「AIOpsLab はエージェントに ReAct ループでの相互作用を Orchestrator 経由で要求し、固定の関数シグネチャを公開するため、非 ReAct アーキテクチャのエージェントは移植が必要」とされる。一方、一次論文 [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] §2.2.2 は、Orchestrator がエージェントに要求するのは `async def get_action(state: str) -> str` の実装のみで「これは既存の任意の agent framework の単純なラッパーでよい」と明記し、ReAct は評価した 6 エージェントの 1 つに過ぎない。「固定シグネチャを公開」は事実だが「ReAct 前提/非 ReAct は移植必要」は一次論文の主張と整合しない。要解決(SREGym 一次資料の該当箇所を確認)。
## 関連
- 一次ソース: [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]
- 比較ソース: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]
- 著者: [[Yinfang Chen]] / [[Minghua Ma]](所属 [[University of Illinois Urbana-Champaign]] / [[Microsoft]])
- 概念: [[AIOps]] / [[SRE Benchmark]] / [[agentic SRE]]
- 構成要素: [[DeathStarBench]] / [[ChaosMesh]]
- 類似ベンチマーク: [[ITBench]] / [[SREGym]]
- 評価対象エージェント: [[Stratus]]
- 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]]