# Metastable Failure ## 定義 metastable failure は、過渡的なイベント(例: 負荷急増)に応じてシステムが劣化し、その**トリガが除去されても回復しない**自己持続的な輻輳崩壊(self-sustaining congestive collapse)を指す。crash のような fail-stop 症状として現れないため診断が難しい。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) SREGym では複合 fault としてモデル化される: application 層のトリガ(例: トラフィックを増幅する retry 設定の誤り、頻繁な GC を強いる runtime flag)と、システムを脆弱状態へ追い込むインフラ制約(例: CPU/メモリを絞る resource quota/limit)の組。インフラ制約はエラーも失敗トレースも生まず、deployment 設定の明示的な確認でしか発見できない。緩和にはトリガ修正だけでは不十分で、インフラ制約を取り除いたうえで application を再起動し clean slate を与える必要がある。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] Appendix D.1) ## 横断的知見 - _(現状は本ソース 1 件のみ。metastable failure の一次研究(Bronson+ HotOS'21 等、本論文の参照 [29][45][47])を ingest したら、定義・発生機序・対策の突き合わせをここに積む。)_ ## 未解決の問い - SREGym 評価では、エージェントは application 層トリガ(trace/deployment で可視)は確実に診断するが、症状を生まないインフラ制約をほぼ発見できず、トリガと制約の**相互作用**を特定した run は皆無だった。観測可能な症状を持たない原因をエージェントに探索させるには何が必要か。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 過渡トリガと持続劣化の関係を推論し、「トリガ修正+制約除去+再起動」という非自明な緩和に到達させる手立ては。 ## 関連 - ソース: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[agentic SRE]] / [[SRE Benchmark]] - エンティティ: [[SREGym]] - 関連 MOC: [[SRE - MOC]] ## 出典 - [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](§2.4, §3.2, Appendix D.1)