MicroRemed - yuuk1's Digital Garden

# MicroRemed LLM の **エンドツーエンドのマイクロサービス修復(E2E-MR)** 能力を評価する初のライブベンチマーク(Peking University / Alibaba Group、コード: github.com/LLM4AIOps/MicroRemed)。 - 実際のマイクロサービスを起動して障害を注入し、診断レポートから LLM に Ansible プレイブックを生成させ、実行して回復を検証する閉ループ(Failure Injection → Candidate LLM → Execution Engine → Status Verification → Evaluation and Recovery、図2)。 - 出力の言語的類似ではなく**実行結果**で採点する実行ベースの評価。Status Verification は注入した障害のみを標的に検査し、検証精度 100% を主張する。 - 構成: 7 種の障害タイプ([[ChaosMesh]] によるカオス注入 + 設定注入)× 3 システム([[Train-Ticket]]・[[Online-Boutique]]・Simple-Micro)で 421 件の障害・回復ペアを生成可能。標準難度は easy(23)/medium(49)/hard(80)。 - 参照手法は SoloGen(ワンショット)と [[ThinkRemed]](マルチエージェント)。9 種の LLM を評価し、最強の Qwen3-Plus でも最も易しいレベルで 50% 未満。 ## 関連 - 本ソース: [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] - 関連概念: [[障害緩和]] / [[SRE Benchmark]] / [[agentic SRE]] / [[AIOps]] - 比較対象: [[AIOpsLab]] / [[SREGym]] / [[ITBench]] - 関連手法: [[ThinkRemed]] - 関連 MOC: [[LLM4SRE - MOC]] / [[SRE - MOC]]