AIOpsLab - yuuk1's Digital Garden

# AIOpsLab 自律クラウドを実現する AIOps エージェントを評価する包括的なフレームワーク。一次論文は [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]([[Yinfang Chen]] ほか, MLSys 2025; arXiv:2501.06706, 2025-01-12)。LLM エージェントがインシデントライフサイクル全体を自律管理する **AgentOps**(Agent for Operations)パラダイムを提唱した。 - **構成**: 中心の **Orchestrator** がエージェントとサービスの関心の分離を強制し、**Agent-Cloud Interface (ACI)** として振る舞う。ACI は有効なアクション集合とサービス状態の観測を規定し、`get_logs`/`get_metrics`/`get_traces`/`exec_shell` 等の簡潔な API を提供する。配備は Helm/Kubernetes、テレメトリは Jaeger(traces)・Prometheus(metrics)・Filebeat/Logstash(logs)。 - **testbed**: [[DeathStarBench]] の SocialNetwork(28 microservices)と HotelReservation を配備。ワークロードは wrk2。 - **fault library**: [[ChaosMesh]] を統合した symptomatic fault と、設定ミスやソフトウェアバグ等のきめ細かな機能的障害の 2 系統。 - **task taxonomy**: 検知 / 箇所特定 / RCA / 緩和の 4 段階(上位ほど難。詳細は [[AIOps]])。各障害シナリオをこの 4 つのサブ問題に分解して個別採点する。 - **評価**: 48 問題・6 エージェント計 288 ケース。Flash が最高精度 59.32%、GPT-3.5-w-Shell は最速だが最低 15.25%。RCA・緩和が最難。 - **後続エージェントの評価基盤として**: [[Stratus]]([[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])は AIOpsLab を [[ITBench]] と並ぶ評価ベンチマークに採り、緩和成功率で SOTA の SRE エージェントを各種モデルで少なくとも 1.5 倍上回ると報告。AIOpsLab がエージェント比較の事実上のベンチマークになりつつある。 - **「agent-cloud interface」という用語・設計の収束**: [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]](本論文を参照 [14] として引く)も提案アーキテクチャの中核に **agent-cloud interface** を据える。AIOpsLab の ACI が単一クラウドで固定アクション集合と観測を露出するのに対し、OSR 版はモダリティ併用時の resource drift・race condition を統一クラウド状態と同期プリミティブ(locking/transaction)で調停する点に踏み込む。同じ名前のインターフェース層が、評価基盤(AIOpsLab)と運用アーキテクチャ(OSR ビジョン)の双方で立ち上がっている。(Source: [[@2025__OSR__Cloud Infrastructure Management in the Age of AI Agents]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **[[ITBench]] からの位置づけ**: [[ITBench]] 一次論文([[@2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]])は表1 で AIOpsLab を「SRE 10 シナリオ・実環境・自動評価あり・leaderboard は未検証」と整理し、自身を「3 ペルソナ横断・検証済み leaderboard」で差別化する。AIOpsLab(SRE 特化・検知/箇所特定/RCA/緩和の 4 分解)と ITBench(SRE/CISO/FinOps 横断・エンドツーエンドのインシデント解決)はカバー範囲と評価粒度が対照的。 ## PROBE(失敗後回復)における利用 [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]]は AIOpsLab を、SWE-bench(リポジトリレベル修復)・EnterpriseOps-Gym(エンタープライズワークフロー)と並ぶ 3 評価設定の 1 つとして採用する。AIOpsLab 側の 49 件の初回未解決ケースで、PROBE は Top-1 診断精度 44.90%(最良ベースラインの LangSmith Summary と同点)・recovery rate 30.61%(vs LangSmith Summary の 16.33%)を達成した。同じ Top-1 スコアでも recovery rate に大差が生じた点は、AIOpsLab のような対話的サービス環境では「どの設定を検査し、どの検証信号を待つか」を明示する操作的に具体的なガイダンスが必要であることを示す事例として、PROBE の Guidance Gate の有効性の根拠に使われている(§4.2)。代表事例として、targetPort 誤設定と検証前の早期提出という診断が、Service YAML の修正・nginx から user-service への到達再検証という 4 要素の recovery guidance に変換される AIOpsLab ケースが Figure 4 で紹介される。(Source: [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]] §4.1.1, §4.2, §4.3.1) ## SREGym 視点での位置づけ後続の [[SREGym]]([[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]])は AIOpsLab を先行のライブベンチマークと位置づけつつ、(1) アプリケーション/仮想化層中心で OS/ハードウェアカーネル層の障害を欠く、(2) 単一障害中心、(3) 環境ノイズが無い、(4) 障害を 4 サブ問題に分解する評価がエンドツーエンドの現実から乖離、(5) 箇所特定のオラクルがラベル厳密一致で脆い、と批判し、これらの克服を狙う。SREGym はその 90 問のうち一部を AIOpsLab から移植(n=34)している。 > [!contradiction] [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]の評価と一次論文の食い違い > SREGym 由来の記述では「AIOpsLab はエージェントに ReAct ループでの相互作用を Orchestrator 経由で要求し、固定の関数シグネチャを公開するため、非 ReAct アーキテクチャのエージェントは移植が必要」とされる。一方、一次論文 [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] §2.2.2 は、Orchestrator がエージェントに要求するのは `async def get_action(state: str) -> str` の実装のみで「これは既存の任意のエージェントフレームワークの単純なラッパーでよい」と明記し、ReAct は評価した 6 エージェントの 1 つに過ぎない。「固定シグネチャを公開」は事実だが「ReAct 前提/非 ReAct は移植必要」は一次論文の主張と整合しない。要解決(SREGym 一次資料の該当箇所を確認)。 ## 関連 - 一次ソース: [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]] - 比較ソース: [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 著者: [[Yinfang Chen]] / [[Minghua Ma]](所属 [[University of Illinois Urbana-Champaign]] / [[Microsoft]]) - 概念: [[AIOps]] / [[SRE Benchmark]] / [[agentic SRE]] / [[クラウド管理モダリティ]] - 構成要素: [[DeathStarBench]] / [[ChaosMesh]] - 類似ベンチマーク: [[ITBench]] / [[SREGym]] - 評価対象エージェント: [[Stratus]] - 失敗後回復での利用: [[@2026__arXiv__Debugging the Debuggers - Failure-Anchored Structured Recovery for Software Engineering Agents]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]]