Cloud-OpsBench - yuuk1's Digital Garden

# Cloud-OpsBench [[The Chinese University of Hong Kong]] と [[Sun Yat-sen University]] による、エージェント型の根本原因分析(Agentic RCA)向けの再現可能ベンチマーク。Kubernetes 全スタックにわたる 452 の障害事例・40 の根本原因種別・7 カテゴリを備える初の white-box ベンチである。(Source: [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]]) - 中核は State Snapshot Paradigm。本番状態(コントロールプレーンのオブジェクト・メトリクス・ログ)を不変の永続層へ凍結し、`kubectl` 等の標準ツールをゼロレイテンシで模擬するモック接面で再生することで、決定論的なデジタルツインを成し 100% の再現性を達成する。 - 結果(A@1/A@3・TCR)に加え、過程(軌跡整合 Exact/In-Order/Any-Order、Tool Relevance/Coverage、IAC・RAR・ZTDR)を評価する点が独自。リーダーボードに留まらず、データエンジン(SFT 軌跡採取)・RL 環境(PPO/DPO の安全サンドボックス)・診断標準の 3 役を担う。 - 構築は人手検証済み知識ベース + 3 エージェント MAS(Generator/Executor/Verifier)。Testbed は Huawei Cloud 上の Kubernetes v1.31 で [[Online-Boutique]] を [[Locust]] 負荷で駆動、観測に Prometheus/Istio、摂動に ChaosBlade を用いる。実装は [[CrewAI]] + Pydantic + Langfuse。 - データ・コードは https://github.com/LLM4Ops/Cloud-OpsBench で公開。 ## 関連 - 本ソース: [[@2026__arXiv__Cloud-OpsBench - A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems]] - 開発組織: [[The Chinese University of Hong Kong]] / [[Sun Yat-sen University]] - 主要著者: [[Guangba Yu]](責任著者) / [[Pengfei Chen]] / [[Michael R. Lyu]] - 利用基盤: [[Kubernetes]] / [[Online-Boutique]] / [[Locust]] / [[CrewAI]] - 類似ベンチ: [[AIOpsLab]] / [[ITBench]] / [[SREGym]] / [[MicroRemed]] - 関連概念: [[根本原因分析]] / [[SRE Benchmark]] / [[AIOps]]