SREGym - yuuk1's Digital Garden

# SREGym AI の SRE エージェントを評価する高忠実度のライブベンチマーク。実世界のクラウドネイティブなスタック(Kubernetes ベース)上に本番相当環境を立て、障害注入器で層横断の障害・環境ノイズ・複数の障害モードをオーケストレーションして SRE 問題を構成する。([[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 問題は四つ組 P = (E, I, F, O)(環境・エージェントインタフェース・障害/ノイズ・オラクル)で定義される。 - 現在 90 問を選定済み。50 の障害プリミティブ × 139 のデプロイ可能サービス(5 アプリ)で 3,623 の実行可能な (fault, target) ペアを表現でき、90 問はその約 2.5%。 - エージェントインタフェースは MCP サーバとして Metrics(Prometheus)・Logs(Loki)・Traces(Jaeger)・Cluster control(kubectl)・Submission を公開。エージェントのアーキテクチャに仮定を置かない(必須は submit() のみ)。 - 同梱アプリ: DeathStarBench、Train Ticket、Astronomy Shop、自作の衛星軌道シミュレータ・航空券予約。バックエンドは MongoDB・TiDB・Kafka・MySQL 等。 - オープンソース: https://github.com/SREGym/SREGym 。研究者・実務家に利用されている。 ## 関連 - 提案論文: [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[SRE Benchmark]] / [[agentic SRE]] / [[Metastable Failure]] - 評価対象エージェント: [[Stratus]] - 先行ベンチマーク: [[AIOpsLab]] / [[ITBench]] - 主要著者: [[Tianyin Xu]]([[University of Illinois Urbana-Champaign]]) - 関連 MOC: [[SRE - MOC]] / [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]]