ITBench - yuuk1's Digital Garden

# ITBench SRE・CISO・FinOps の 3 ペルソナ横断で AI エージェントを評価する、実環境ベースの IT 自動化ベンチマーク。一次論文は [[@2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]]([[Saurabh Jha]] ほか、[[IBM Research]] × [[University of Illinois Urbana-Champaign]]、ICML 2025 / PMLR v267)。SWE-bench に倣い IT 自動化の能力向上を駆動することを狙う。コードは https://github.com/ibm/itbench(102 中 11 シナリオ + ベースラインエージェントを公開、残りは評価用に留保)。 ## 一次論文での設計(ICML 2025) - **シナリオ形式化**: 各問題を tuple `<M, E, T, D>`(metadata / environment / triggering events / desired outcome)と定義し、エージェントと環境を **POMDP** として扱う。計 **102 シナリオ**(SRE 42・CISO 50・FinOps 10)、複雑度は Easy/Medium/Hard。 - **実環境**: OpenTelemetry Astronomy Shop Demo を載せた Kubernetes クラスタ + Grafana/Loki/Jaeger/Prometheus のオブザーバビリティスタック。Benchmark Runner がセットアップ・クリーンアップを回す。AWS EC2(m4.xlarge)主体、ラップトップ上の疑似クラスタでも可。 - **ベースラインエージェント**: SRE-Agent / Compliance Assessment Agent / FinOps-Agent を [[CrewAI]] 上に実装(ReAct によるプランニング・リフレクション・分解)。ツールボックスは NL2Traces/NL2Metrics/NL2Logs/NL2Kubectl/NL2Alerts/NL2Script と CISO 用 GenerateKyverno/GenerateOPARego/GeneratePlaybook/Run*。 - **評価**: pass@1 + 部分採点 + 検証済みリーダーボード。診断品質は **NTAM**(Normalized Topology-Aware Metric、根本原因と障害伝播チェーンをトポロジーで 0–1 採点)、加えて MTTD/MTTR・TTP・F1/rank score。 - **主要結果**: SOTA(GPT-4o)でも SRE 緩和 11.43%・診断 13.81%、CISO O/A 24.74%、FinOps 異常検知 F1 0.6(全体平均 AD F1 0.35)。**Hard シナリオの緩和は全モデル 0%**。**トレースを外すと GPT-4o の診断 13.81%→9.52%・緩和 11.43%→2.86%** と急落。失敗分析で Detoured/Covered Services 指標を導入し、成功した軌跡(trajectory)は障害伝播チェーンへの集中度が高いと示す。 ## 他ベンチ・エージェントとの関係 - **対比(表1)**: TrainTicket(22, 箇所特定のみ)・[[AIOpsLab]](10, リーダーボード未検証)・InsightBench(100, 合成)・TSB-AD(40, 合成異常検知)・CIS(推奨ポリシーのみ)に対し、ITBench は実環境 + 自動評価 + 検証済みリーダーボード + 3 ペルソナ被覆を兼ね備える唯一の枠組みと主張。SRE 特化の [[AIOpsLab]]・[[SREGym]] と違い CISO/FinOps まで横断する。 - **後続エージェントの評価基盤**: [[Stratus]] 一次論文([[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])は ITBench を [[AIOpsLab]] と並ぶ評価基盤に採り、緩和成功率で SOTA の SRE エージェントを各種モデルで少なくとも 1.5 倍上回ると報告。ITBench 主導著者 [[Saurabh Jha]] は Stratus 共著者でもあり(Yu Deng・Rohan Arora・Noah Zheutlin・Bhavya Bhavya も両論文に重複)、ベンチマーク作者とエージェント作者が近接する。 ## SREGym 視点での批判後続の [[SREGym]]([[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]])は ITBench を以下で批判する。 - 診断評価の Normalized Topology-Aware Matching は障害伝播グラフの細かい注釈を要し、誤りが生じやすくスケールしにくい。 - Ansible Playbook を実行基盤とするため、metastable failure や並行ノイズのような分散イベントの協調を直接表現できず、場当たり的なシェルスクリプトに機能を委ねがちである。 - SRE シナリオの約 16%(6/36)で Chaos Mesh スケジュールを使い、それらは欠陥が無く唯一の「緩和」がカオスツールの停止になる。 - 緩和 18 問中 8 問(44%)が汎用的な Pod 再起動ループで「解けて」しまう(障害注入器が再起動後の Pod を見失いアラートが消える)= 報酬ハッキングの例。 > [!contradiction] 一次論文の強み主張対 [[SREGym]] の批判 > ITBench 一次論文は「実環境の反映・自動評価・リーダーボード」を強みに掲げるが、[[SREGym]] は上記 4 点(NTAM のスケーラビリティ、playbook 基盤の表現力、カオスのみのシナリオ、Pod 再起動による報酬ハッキング)を限界として指摘する。詳細は [[SRE Benchmark]]。 ## 関連 - 一次ソース: [[@2025__ICML2025__ITBench - Evaluating AI Agents across Diverse Real-World IT Automation Tasks]] - 比較ソース: [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] / [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] - 著者 / 所属: [[Saurabh Jha]] / [[Rohan Arora]] / [[IBM Research]] / [[University of Illinois Urbana-Champaign]] - 評価対象エージェント: [[Stratus]] - 概念: [[SRE Benchmark]] / [[agentic SRE]] - 類似ベンチマーク: [[AIOpsLab]] / [[SREGym]] - 構成要素: [[CrewAI]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]]