# ITBench 多様な実世界 IT 自動化タスクにわたって AI エージェントを評価するベンチマーク。SREGym が乗り越えようとする先行のライブベンチマークの一つ。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 出典: Jha ほか, "ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks", ICML'25([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] の参照 [50])。 - 診断評価に **Normalized Topology-Aware Matching** を提案。ただし failure-propagation graph の細かい注釈を要し、SREGym は「error-prone でスケールしにくい」と評する。 - Ansible Playbook を実行基盤とするため、metastable failure や concurrent noise のような分散イベントの協調を直接表現できず、ad hoc な shell script に機能を委ねがち(SREGym の指摘)。 - 主に直接の Kubernetes 操作で fault を注入するが、SRE シナリオの約 16%(6/36)で Chaos Mesh のスケジュールを使う。それらは defect が存在せず、唯一の「緩和」は chaos ツールの停止になる。 - Stratus 論文によれば、ITBench の緩和 18 問中 8 問(44%)が generic な pod-restart ループで「解けて」しまう(fault injector が restart 後の Pod を見失い alert が消えるため)。SREGym はこれを reward hacking の例として挙げる。 - [[Stratus]] の一次論文([[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])は ITBench を [[AIOpsLab]] と並ぶ評価基盤に採り、mitigation 成功率で SOTA の SRE エージェントを各種モデルで少なくとも 1.5 倍上回ると報告。なお ITBench 主導著者の [[Saurabh Jha]] は Stratus の共著者でもある。 ## 関連 - 比較元論文: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 評価対象エージェント / 共著者起点: [[Stratus]] / [[Saurabh Jha]] - 概念: [[SRE Benchmark]] / [[agentic SRE]] - 類似ベンチマーク: [[AIOpsLab]] / [[SREGym]] - 関連 MOC: [[AIOps - Failure Detection - MOC]] / [[LLM4SRE - MOC]]