# Transactional No-Regression
## 定義
Transactional No-Regression (TNR) は、[[Stratus]] のような agentic SRE システムが満たすべき**安全仕様(safety specification)**として [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] が形式化したもの。エージェントによる緩和アクションの探索・反復を、システム状態を悪化(regression)させずに安全に行えるよう保証する。これにより safe exploration and iteration が可能になり、自律的な failure mitigation が実効的に改善する。([[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] Abstract)
「Transactional」はトランザクション的な試行(適用 → 観測 → 望ましくなければ巻き戻し)を、「No-Regression」は試行が現状の信頼性指標を後退させない不変条件を含意する。STRATUS はこの仕様を専門 agent の **state machine** 上で推論・強制する。
## 横断的知見
- **undo-and-retry の形式化と観測の符合**: [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] は STRATUS(Claude Sonnet-4.6 版)が緩和成功率で最高なのは **undo-and-retry 機構**ゆえと観測していた。これは一次論文が安全仕様として形式化した TNR(安全に巻き戻して再試行できる)と整合する。ベンチマーク側の経験的観測と、エージェント側の設計原理が一致した例。(Source: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]])
- **TNR の産業実装に相当する control plane**: [[Google]] の [[Actus]](Mitigation Safety Verification Agent)は、緩和ツールの動的レジストリ・必須 dry-run・同時 action チェック・"Red Button" 緊急停止・長時間オペレーションの状態管理を、actuation を司る単一 gateway に集約する。これは TNR が安全仕様として形式化した「安全に試して、まずければ止める/巻き戻す」を control plane の機構として実装したものに相当する。学術が**仕様**として定式化したものを、産業は推論([[AI Operator]])から分離した**実行レイヤの安全装置**として作り込んでおり、安全な actuation の設計が学術・産業の双方で agentic SRE の自律度([[SRE AI Autonomy Levels]] L2→L3)を上げる前提になっている。(Source: [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]])
## 未解決の問い
- TNR の形式的定義(満たすべき不変条件、トランザクション境界の定め方、巻き戻し可能性をどう判定するか)は取得テキストでは未確認。一次論文本文・付録での定式化を確認する。
- TNR は mitigation の write 操作(`kubectl patch` 等)に対し、どこまで自動で巻き戻し可能性を保証できるか。状態を持つ操作(データ書き込み・スキーマ変更)では「no-regression」が成立しない場面をどう扱うか。[[Actus]] の "Red Button" や Post-Actuation Guardians は巻き戻し不能な操作をどう扱っているか(本ソースでは未詳)。
- TNR(仕様)と [[Actus]](control plane 実装)は、保証の置き場所が「エージェントの推論」か「実行レイヤの gateway」かで異なる。安全保証はエージェント側で形式化すべきか、actuation を絞る外部 gateway に委ねるべきか。後者は任意の LLM エージェントを安全化できる利点があるが、エージェントの計画と gateway の制約が齟齬を起こす場面は。([[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]])
- ベンチマーク側の reward hacking([[ITBench]] の pod-restart で 44% 解ける等)と、TNR による「正しく直す」保証はどう関係するか。安全仕様が reward hacking を抑制し得るか。
## 関連
- ソース: [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]
- 概念: [[agentic SRE]] / [[SRE Benchmark]] / [[SRE AI Autonomy Levels]] / [[AIOps]]
- エンティティ: [[Stratus]] / [[Actus]] / [[AI Operator]] / [[Google]]
- 関連 MOC: [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]]
## 出典
- [[2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](Abstract)
- [[2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](STRATUS の undo-and-retry に関する観測)
- [[2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](Architectural Guardrails, Mitigation Safety Verification Agent)