# MicroRemed LLM の **end-to-end microservice remediation(E2E-MR)** 能力を評価する初の live ベンチマーク(Peking University / Alibaba Group、コード: github.com/LLM4AIOps/MicroRemed)。 - 実 microservice を起動し fault を注入、診断レポートから LLM に Ansible playbook を生成させ、実行して回復を検証する閉ループ(Failure Injection → Candidate LLM → Execution Engine → Status Verification → Evaluation and Recovery、Figure 2)。 - 出力の言語的類似でなく**実行結果**で採点する execution-based evaluation。Status Verification は注入 fault のみを標的検査し検証精度 100% を主張。 - 構成: 7 failure type([[ChaosMesh]] による chaos injection + configuration injection)× 3 システム([[Train-Ticket]]・[[Online-Boutique]]・Simple-Micro)で 421 の fault–recovery pair を生成可能。標準難度は easy(23)/medium(49)/hard(80)。 - reference methodology は SoloGen(one-shot)と [[ThinkRemed]](multi-agent)。9 LLM を評価し最強の Qwen3-Plus でも最易レベルで 50% 未満。 ## 関連 - 本ソース: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] - 関連概念: [[障害緩和]] / [[SRE Benchmark]] / [[agentic SRE]] / [[AIOps]] - 比較対象: [[AIOpsLab]] / [[SREGym]] / [[ITBench]] - 関連手法: [[ThinkRemed]] - 関連 MOC: [[LLM4SRE - MOC]] / [[SRE - MOC]]