# Stratus 現代クラウドの自律的な reliability engineering のための multi-agent システム(SRE エージェント)。一次論文は [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]([[Yinfang Chen]] ほか, NeurIPS'25; arXiv:2506.02009)。 ## 一次論文(STRATUS, NeurIPS'25)による記述 - **アーキテクチャ**: failure detection / diagnosis / mitigation の専門 agent を **state machine** に編成し、system-level の safety reasoning と enforcement を担わせる。(Source: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] Abstract) - **安全仕様 [[Transactional No-Regression]] (TNR)**: agentic SRE システムの鍵となる安全仕様を形式化。safe exploration and iteration を可能にし、自律的な failure mitigation を改善する。 - **性能**: [[AIOpsLab]] と [[ITBench]] の mitigation 成功率で、SOTA の SRE エージェントを各種モデルで**少なくとも 1.5 倍**上回る。 - 著者 10 名: [[Yinfang Chen]], Jiaqi Pan, Jackson Clark, Yiming Su, Noah Zheutlin, Bhavya Bhavya, Rohan R. Arora, Yu Deng, [[Saurabh Jha]], [[Tianyin Xu]]。 ## SREGym 評価(二次情報)による観測 - 評価では Claude Sonnet-4.6 / Kimi K2.5 を載せて測定。Sonnet-4.6 版は全エージェント中で緩和成功率が最高で、これは **undo-and-retry 機構**に起因する(一次論文の [[Transactional No-Regression]] と整合)。Kimi K2.5 版は素のモデル能力の制約で最低。([[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - observability データを前処理し関連データのみを LLM に渡すため、汎用 coding エージェント(Claude Code・Codex)より 1 run あたりトークン消費が約 1/3。metrics/traces/service dependency graph 用の専用 API ツールを持ち、ツール呼び出しの 15–17% を占める。 - 緩和の write 操作では `kubectl patch`(39–41%)を好む。 ## 関連 - 一次ソース: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] - 評価で使われた論文: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] - 概念: [[Transactional No-Regression]] / [[agentic SRE]] / [[SRE Benchmark]] - 評価ベンチマーク: [[AIOpsLab]] / [[ITBench]] - 著者: [[Yinfang Chen]] / [[Tianyin Xu]] / [[Saurabh Jha]]([[University of Illinois Urbana-Champaign]]) - 関連 MOC: [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]]