# 障害緩和 ## 定義 障害緩和(software remediation / mitigation)は、failure diagnosis の結果を入力に、適切な復旧アクションを実行してシステムを健全な状態へ戻す、ソフトウェア保守ライフサイクル(anomaly detection → failure diagnosis → software remediation)の最終段。action-oriented な段階で、診断洞察(局所化された故障領域 $r_i$、故障種別 $c_i^*$、現在状態 $S_t$)を具体的な復旧戦略や実行可能 repair script に operationalize する($R: (r_i, c_i^*, S_t) \to A_i$)。アクションは service restart・configuration rollback・resource reallocation・patch deployment 等を含み、緩和後状態 $S_{t+1}$ を観測する閉ループ最適化として形式化できる。戦略は recovery plan を合成する **plan-based** と実行可能 script を生成する **script-based** に大別される。([[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] §B.3) [[AIOps]] の 4-level taxonomy では最上位(最難)の Mitigation に対応する([[AIOpsLab]])。 ## 横断的知見 - **「緩和」が独立した評価対象として切り出された**: [[AIOpsLab]] は緩和を detection/localization/RCA と並ぶライフサイクルの 1 タスクとして扱い、[[SREGym]] は end-to-end ループの帰結として緩和成功を見る。これに対し [[MicroRemed]] は緩和(より厳密には診断レポート→実行可能 playbook の生成=E2E-MR)だけを切り出し**専門ベンチマーク化**した初例。AIOps 評価が「ライフサイクル全体の被覆」から「最難段である緩和の深掘り」へ分化しつつある。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **緩和は試行錯誤であり「安全に巻き戻せる反復」が鍵**: 緩和は実行時にしか結果が観測できない多段計画であるため、複数の独立した研究が「1 発生成より反復・反省」に収束する。[[MicroRemed]] の [[ThinkRemed]] は reflection(失敗からの再生成)が one-shot を平均 +7.07% 上回り、ablation で reflection(-7.16%)が probe(-1.57%)より寄与大と示す。[[Stratus]] は undo-and-retry を [[Transactional No-Regression]] として形式化し「safe exploration が autonomous mitigation を改善」と主張、[[SREGym]] も最高性能を undo-and-retry 機構ゆえと観測する。緩和性能の源泉は情報収集の量でなく**反省と安全な再試行**にあるという像が複数ソースで一致。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **情報の取りすぎは緩和を害し得る**: [[MicroRemed]] は probe(runtime 情報収集)を除去すると一部設定で精度が**上がる**ことを観測し、現行モデルの contextual reasoning が限られるため過剰 probing がノイズになると分析する。これは [[AIOpsLab]] の「成功エージェントほど get_metrics/get_traces を控えめに使い、雑な消費は context window 圧迫と性能低下を招く」観測、[[SREGym]] の「greedy approach への固着」と同じ向きの知見。緩和でも telemetry の取捨選択が性能を左右する([[agentic SRE]] と接続)。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **execution-based / state-based 検証で「本当に直ったか」を測る**: [[MicroRemed]] は出力のテキスト類似でなく playbook を実行し、注入 fault のみを標的検査して回復を判定する(検証精度 100% を主張)。[[SREGym]] も alert 抑制でなく state ベースで緩和成功を判定し reward hacking を防ぐ。緩和評価が「もっともらしい出力」から「実環境での状態回復」へ統一されつつある。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) ## 未解決の問い - 緩和性能を押し上げるのは reflection(反省)か probe(情報収集)か。[[MicroRemed]] は reflection 優位かつ過剰 probing が害になり得ると示すが、これはモデルの contextual reasoning 能力に依存する暫定的な結論。モデルが賢くなれば probe の価値は回復するか。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - 反復 reflection の精度向上は逓減する($T_{max}$ を増やしても頭打ち)。トークン/latency コストは ThinkRemed で 100K 超まで膨らむ。adaptive probing・動的 timeout・選択的 reflection で精度を保ちつつコストを抑える orchestration は設計できるか。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - Configuration Error 緩和は観測可能な resource 異常でなく振る舞いの微妙な不整合として現れ、symbolic reasoning と deployment 意味理解を要する。reflection を持つ ThinkRemed でも 60% を超えにくい。設定レベル推論のボトルネックをどう破るか。network 系(Loss/Delay)が全モデルで最難な理由(時間依存・サービス間通信グラフの推論)も同根か。(Source: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]]) - script-based 緩和(Ansible playbook 生成)と plan-based 緩和(rule/policy 駆動の recovery plan)の使い分けはどうあるべきか。[[MicroRemed]] は前者に焦点を絞るが、source code や過去の緩和記録を併用すると更に改善し得ると示唆する。 - 「正しく理解して直す」と「症状の pattern-match でたまたま直る」をどう区別して報酬設計するか([[agentic SRE]]・[[SRE Benchmark]] の reward hacking の問いと共有)。安全制約 [[Transactional No-Regression]] が緩和の誠実性を担保し得るか。 ## 関連 - ソース: [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]] / [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[AIOps]] / [[agentic SRE]] / [[SRE Benchmark]] / [[Transactional No-Regression]] / [[障害予測]] - エンティティ: [[MicroRemed]] / [[ThinkRemed]] / [[Ansible]] / [[Stratus]] / [[ChaosMesh]] - 関連 MOC: [[LLM4SRE - MOC]] / [[SRE - MOC]] / [[Project AI4SRE - MOC]] ## 出典 - [[2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]](Abstract, §1, §3, §4, §5, Appendix B.3/F/I/J) - [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]](Table 1, §3.6) - [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](Abstract) - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](§1, §2)