Stratus - yuuk1's Digital Garden

# Stratus 現代クラウドの自律的な信頼性運用のためのマルチエージェントシステム(SRE エージェント)。一次論文は [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]([[Yinfang Chen]] ほか, NeurIPS'25; arXiv:2506.02009)。 ## 一次論文(STRATUS, NeurIPS'25)による記述(PDF 本文参照) - **アーキテクチャ**: 4 エージェント — αD(検知)・αG(診断: 箇所特定+RCA)・αM(緩和)・αU(巻き戻し)— を**決定的な状態機械(コントロールプレーン)**で編成し、LLM は各エージェントのデータフローにのみ使う。読み取り専用 `Aread` / 変更 `Awrite` / 巻き戻し `Aundo` の行動空間を ACI(Agent-Computer Interface)経由で操作。実装基盤は [[CrewAI]]。(Source: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] §3–4) - **安全仕様 [[Transactional No-Regression]] (TNR)**: 重大度指標 `µ(s)=w1·|A|+w2·|V|+w3·|L|` の単調非増加(`µ(s) ≤ b`)を、A-Lock(ライタ排他)/Faithful Undo(`U(spost)=spre`)/Bounded Risk Window(`K=20`)の 3 仮定下で Alpern–Schneider の safety property として証明(Lemma 3.1)。Undo Agent は状態突き合わせを使った**スタックベースのロールバック**(Figure 3)で実装。 - **性能**: [[AIOpsLab]] の緩和 69.2%(9/13)・[[ITBench]] 50.0%(9/18)で 2 位を **1.5X / 5.4X** 上回る(GPT-4o)。アブレーションでは再試行なしで 15.4% まで落ち、TNR の巻き戻しと再試行が緩和の鍵だと示す(80% 超の問題で 1 回以上再試行)。検知 90.6%・箇所特定 51.2%(最高)。(Table 2/3/4) - **現実性の留保**: ITBench 18 問中 8 問は「注入した障害が Pod 再起動後に残らない」性質を悪用した Pod 再起動で解いており、永続的な障害には効かないと論文自身が明言。 - 著者 10 名(共著代表 4 名): [[Yinfang Chen]], Jiaqi Pan, Jackson Clark, Yiming Su(以上 [[University of Illinois Urbana-Champaign]]、Pan は [[Tsinghua University]] 兼)/ Noah Zheutlin, Bhavya Bhavya, Rohan Arora, Yu Deng, [[Saurabh Jha]](以上 [[IBM Research]])/ [[Tianyin Xu]](UIUC)。 ## SREGym 評価(二次情報)による観測 - 評価では Claude Sonnet-4.6 / Kimi K2.5 を載せて測定。Sonnet-4.6 版は全エージェント中で緩和成功率が最高で、これは**巻き戻しと再試行の機構**に起因する(一次論文の [[Transactional No-Regression]] と整合)。Kimi K2.5 版は素のモデル能力の制約で最低。([[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - オブザーバビリティデータを前処理し関連データのみを LLM に渡すため、汎用のコーディングエージェント(Claude Code・Codex)より 1 実行あたりのトークン消費が約 1/3。メトリクス/トレース/サービス依存グラフ用の専用 API ツールを持ち、ツール呼び出しの 15–17% を占める。 - 緩和の書き込み操作では `kubectl patch`(39–41%)を好む。 ## 関連 - 一次ソース: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] - 評価で使われた論文: [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[Transactional No-Regression]] / [[agentic SRE]] / [[SRE Benchmark]] - 評価ベンチマーク: [[AIOpsLab]] / [[ITBench]] - 著者: [[Yinfang Chen]] / [[Tianyin Xu]] / [[Saurabh Jha]] - 所属・基盤: [[University of Illinois Urbana-Champaign]] / [[IBM Research]] / [[Tsinghua University]] / [[CrewAI]] - 関連 MOC: [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]]