Transactional No-Regression - yuuk1's Digital Garden

# Transactional No-Regression ## 定義 Transactional No-Regression (TNR) は、[[Stratus]] のようなエージェント型 SRE システムが満たすべき**安全仕様(safety specification)**として [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] が形式化したもの。エージェントによる緩和アクションの探索・反復を、システム状態を悪化(regression)させずに安全に行えるよう保証する。これにより安全な探索と反復が可能になり、自律的な障害緩和が実効的に改善する。([[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] Abstract) 「Transactional」はトランザクション的な試行(適用 → 観測 → 望ましくなければ巻き戻し)を、「No-Regression」は試行が現状の信頼性指標を後退させない不変条件を含意する。STRATUS はこの仕様を専門エージェントの **状態機械**上で推論・強制する。 ### 形式的定義(PDF 本文 §3.1 で確認) 環境 `E` の重大度を `µ(s) = w1·|A| + w2·|V| + w3·|L|`(`A`=アラート, `V`=SLA 違反, `L`=容量損失)、初期の誤り状態 `se0` の重大度を `b = µ(se0)` とする。TNR は次の 3 仮定の下にトランザクション意味論を構成する。(Source: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] §3.1) - **A1 Writer Exclusivity (A-Lock)**: 変更可能な writer agent(αM/αU)は同時に高々 1 つ(readers-writer lock)。 - **A2 Faithful Undo**: undo 演算子 `U(spost) = spre`(checkpoint を正確に復元)。 - **A3 Bounded Risk Window**: トランザクション長 `k ≤ K`(実装は `K=20`)。トランザクション `T=(a1,…,ak)` は A-Lock 保持下で **R1 Checkpoint** → **R2 Execute** → **R3 Commit/Abort**(`spost≠⊥ かつ µ(spost) ≤ µ(spre)` で commit、さもなくば αU が一度 `U` で abort)で実行する。abort は外部から見える状態に痕跡を残さず、トランザクション内の状態列は **hidden µ-path** として隠蔽される。**Lemma 3.1**: 外部から見えるすべての状態が `µ(s) ≤ b` を満たす(帰納法)。すなわち TNR は「観測トレース上で重大度が初期ベースライン `b` を超えない」**Alpern–Schneider safety property**。これが「巻き戻し可能性の判定(すべてのアクションに undo 演算子を要求し、回復不能なアクションは拒否/回復可能な形へ変換)」と「トランザクション境界(K で区切る)」の具体である。 ## 横断的知見 - **巻き戻しと再試行の形式化と観測の符合**: [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]] は STRATUS(Claude Sonnet-4.6 版)が緩和成功率で最高なのは **巻き戻しと再試行の機構**ゆえと観測していた。これは一次論文が安全仕様として形式化した TNR(安全に巻き戻して再試行できる)と整合する。ベンチマーク側の経験的な観測と、エージェント側の設計原理が一致した例。(Source: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **安全仕様は報酬ハッキングを抑止しきれない(本文で裏取り)**: TNR は「状態を悪化させない」ことは保証するが「正しく直す」ことは保証しない。[[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] 本文・付録 C は、[[ITBench]] 18 問中 8 問を STRATUS が「注入された障害が pod 再起動後に残らない」性質を悪用した pod の再起動で解いており、ITBench が即時アラートの有無で判定するため **undo agent の有無でタスク成功率が変わらない(共に 9/18)**と報告する。つまり TNR の価値は「即時アラートを起こさない潜在的な副作用を後で巻き戻せる」点にあり、ベンチが捉えない長期的な健全性を守るが、ベンチ上の報酬ハッキング自体は防げない。安全仕様(no-regression)と評価指標の誠実性は直交する。(Source: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]], [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **TNR は「保証契約 + 検証の壁」という上位設計パターンの具体例として読み直せる**: 既存スレッドは TNR(仕様)と [[Actus]](実装)が同じ「安全に試して巻き戻す」を別レイヤで実現すると整理してきた。[[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] はこの両者を包摂する抽象として **assurance contract `Ck=(Tk,Rk,Gk,Uk,Bk)`** と **verification wall**(提案とコミットの間の迂回不能ゲート、§III-G)を与える。TNR の「checkpoint→execute→commit/abort(`µ(spost) ≤ µ(spre)` で commit)」は、保証契約の `Uk`(ロールアウトプロトコル)に undo を組み込み、commit 判定を `Gk` のゲートとして実装したものと読める。サーベイ自身も「reversibility は行動モデルに組み込むべき」「rollback-aware learning」を §VII-E で要求しており、TNR の `U(spost)=spre`(faithful undo)はその具体的な行動モデルにあたる。本 wiki が一次論文から形式化した安全仕様が、サーベイの一般化された契約言語の中に位置づけられる([[エージェント運用安全性]] に詳述)。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **「安全仕様と評価指標の誠実性は直交する」問題に、サーベイは安全違反を減点する評価設計で応える**: 既存スレッドは TNR が「状態を悪化させない」ことは保証するが「正しく直す」「報酬ハッキングを防ぐ」ことは保証しないと記録していた([[ITBench]] の pod 再起動で 44% 解ける例)。[[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]] は同じ問題を評価側から攻め、「最終診断が正しくても危険な行動を罰する」採点(trace 採点 `TraceScore(E)` がポリシー違反 `τi` を `−μ` で減点、式(38))と、安全性専用の指標(PolicyViolations・UnnecessaryActions・RollbackRate、表V)を要求する。TNR が**実行時の安全**を仕様で保証するのに対し、サーベイは**評価時の安全**を採点で可視化する——両者は「安全な成功と単なるタスク完了を区別する」(§VII-I)という同じ目標を、強制(仕様)と計測(評価)の両面から追う。(Source: [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) - **TNR の産業実装に相当するコントロールプレーン**: [[Google]] の [[Actus]](Mitigation Safety Verification Agent)は、緩和ツールの動的レジストリ・必須の dry-run・同時アクションのチェック・"Red Button" 緊急停止・長時間オペレーションの状態管理を、アクチュエーションを司る単一のゲートウェイに集約する。これは TNR が安全仕様として形式化した「安全に試して、まずければ止める/巻き戻す」をコントロールプレーンの機構として実装したものに相当する。学術が**仕様**として定式化したものを、産業は推論([[AI Operator]])から分離した**実行レイヤの安全装置**として作り込んでおり、安全なアクチュエーションの設計が学術・産業の双方でエージェント型 SRE の自律度([[SRE AI Autonomy Levels]] L2→L3)を上げる前提になっている。(Source: [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]], [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]]) ## 未解決の問い - TNR は緩和の書き込み操作(`kubectl patch` 等)に対し、どこまで自動で巻き戻し可能性を保証できるか。論文自身が**完全な undo は実環境で困難**(アプリケーション固有の状態・外部との相互作用は `U(spost)=spre` で覆えず、`K=20` を超える長い補償ロジックも要りうる)と認め、状態を調停する operator(Kubernetes/Borg 等)が在ることに依存すると述べる。調停の仕組みを持たない/状態を持つ操作(データ書き込み・スキーマ変更)で no-regression が崩れる場面をどう扱うか。[[Actus]] の "Red Button" や Post-Actuation Guardians は巻き戻し不能な操作をどう扱っているか(本ソースでは未詳)。 - TNR(仕様)と [[Actus]](コントロールプレーン実装)は、保証の置き場所が「エージェントの推論」か「実行レイヤのゲートウェイ」かで異なる。安全保証はエージェント側で形式化すべきか、アクチュエーションを絞る外部のゲートウェイに委ねるべきか。後者は任意の LLM エージェントを安全化できる利点があるが、エージェントの計画とゲートウェイの制約が齟齬を起こす場面はどうか。([[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]]) - ベンチマーク側の報酬ハッキング([[ITBench]] の pod の再起動で 44% 解ける等)と、TNR による「正しく直す」保証はどう関係するか。安全仕様が報酬ハッキングを抑制し得るか。 ## 関連 - ソース: [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]] / [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]] - 概念: [[agentic SRE]] / [[SRE Benchmark]] / [[SRE AI Autonomy Levels]] / [[AIOps]] / [[エージェント運用安全性]] / [[NetOps]] - エンティティ: [[Stratus]] / [[Actus]] / [[AI Operator]] / [[Google]] - 関連 MOC: [[LLM4SRE - MOC]] / [[Project AI4SRE - MOC]] ## 出典 - [[@2025__NeurIPS2025__STRATUS - A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds]](Abstract) - [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]](STRATUS の undo-and-retry に関する観測) - [[@2026__GoogleSRE__AI in SRE - Engineering the Future of Reliable Operations]](Architectural Guardrails, Mitigation Safety Verification Agent) - [[@2026__arXiv__Large Language Models for Agentic NetOps and AIOps - Architectures, Evaluation, and Safety]](§III-G verification wall, §IX-A assurance contract Ck, §VII-C/E trace 採点式(38)/rollback-aware scoring, 表V safety メトリクス)