# SREGym AI の SRE エージェントを評価する高忠実度のライブベンチマーク。実世界の cloud-native スタック(Kubernetes ベース)上に本番相当環境を立て、fault injector で層横断の fault・ambient noise・複数の障害モードをオーケストレーションして SRE 問題を構成する。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 問題は四つ組 P = (E, I, F, O)(環境・agent interface・fault/noise・oracle)で定義される。 - 現在 90 問を curate。50 の fault primitive × 139 deployable service(5 アプリ)で 3,623 の実行可能 (fault, target) ペアを表現でき、90 問はその約 2.5%。 - Agent interface は MCP サーバとして Metrics(Prometheus)・Logs(Loki)・Traces(Jaeger)・Cluster control(kubectl)・Submission を公開。エージェントのアーキテクチャに仮定を置かない(必須は submit() のみ)。 - 同梱アプリ: DeathStarBench、Train Ticket、Astronomy Shop、自作の衛星軌道シミュレータ・航空券予約。backend は MongoDB・TiDB・Kafka・MySQL 等。 - オープンソース: https://github.com/SREGym/SREGym 。研究者・実務家に利用されている。 ## 関連 - 提案論文: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[SRE Benchmark]] / [[agentic SRE]] / [[Metastable Failure]] - 評価対象エージェント: [[Stratus]] - 先行ベンチマーク: [[AIOpsLab]] / [[ITBench]] - 主要著者: [[Tianyin Xu]]([[University of Illinois Urbana-Champaign]]) - 関連 MOC: [[SRE - MOC]] / [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]]