@2026__SREcon26 Americas__Taming the Unpredictable - Reliability in Chaos

# Taming the Unpredictable: Reliability in Chaos ## 概要 Michelle Brush による SREcon26 Americas 2026 の講演。AI によるコード生成と運用エージェントの普及を、単なる生産性向上ではなく「作れるものが増えることでシステム複雑性も増す」変化として捉える。予測困難性に対して、汎用緩和、リスク先行の探索、実験、継続的な仮定検証を SRE の実践として再配置する。 ## 主要メッセージ - AI エージェントはソフトウェアを作る速度を上げるが、ジェボンズのパラドックスにより作られるソフトウェア量も増え、SRE が扱うシステムはさらに大きく複雑になる。(Source: [[.raw/videos/youtube-DqpcVQIs3G8/transcript.md]]) - 複雑システムは、詳細な計画、プレイブック、単体テストだけで完全に制御できる対象ではない。計画は固定的な手順ではなく、学習のための実験列として組む必要がある。(Source: [[.raw/videos/youtube-DqpcVQIs3G8/transcript.md]]) - エージェントはバグ発見、修正、単体テスト追加、古いコマンドの一括修正に使えるが、エージェントが書くコードやコマンドも「荷重を受ける」ため、アウトエージを起こしうる。(Source: [[.raw/videos/youtube-DqpcVQIs3G8/transcript.md]]) - 汎用緩和は事後対応の道具にとどまらず、システム要求として継続的にテストされるべきである。ロールバックやトラフィックドレイン等は、緩和ツール変更時だけでなくシステム変更ごとに検証対象になる。(Source: [[.raw/videos/youtube-DqpcVQIs3G8/transcript.md]]) - 人間は複雑性の境界で問題を解き、システムを再び動かし、何が起きたかを学ぶ役割を担う。AI による自動化はこの役割を消すというより、より強い道具で支える方向に働く。(Source: [[.raw/videos/youtube-DqpcVQIs3G8/transcript.md]]) ## 映像で確認できる重要点 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-001.jpg]] frame-001 では、Michelle Brush が Google Compute Engine と Persistent Disk の SRE Engineering Director として紹介され、失敗の仕方を分析し、失敗時に早く復旧する職務観が示されている。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-002.jpg]] frame-002 では、`before automation` と `after automation` の図が表示され、自動化後に人間へ残る作業が少数だが重い判断に寄ることを示している。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-003.jpg]] ![[_attachments/srecon26-brush-taming-unpredictable/frame-004.jpg]] frame-003 と frame-004 では、`The Curse of Knowledge` と能力階層の図が示され、AI/LLM と人間の得意・不得意を「意識的/無意識的な能力・無能力」の枠組みで説明している。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-005.jpg]] frame-005 では、Richard Cook の `How Complex Systems Fail` が章題として表示され、講演が複雑システム障害論へ接続していることを確認できる。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-006.jpg]] frame-006 では `needles hiding in many haystacks` が表示され、単一の針を探すのではなく、多数の干し草山に複数の針が隠れる探索問題として障害・リスクを扱っている。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-008.jpg]] ![[_attachments/srecon26-brush-taming-unpredictable/frame-009.jpg]] frame-008 では `Ask agents to find & fix things.`、frame-009 では `Rethinking prioritization.` が表示され、エージェントによる大量の発見・修正が優先順位付けの再考を迫るという構成が確認できる。 - ![[_attachments/srecon26-brush-taming-unpredictable/frame-010.jpg]] ![[_attachments/srecon26-brush-taming-unpredictable/frame-011.jpg]] frame-010 では `Experimentation`、frame-011 では `Codify Intentional Assumptions` と `// This should never happen.` が表示され、固定計画より実験、暗黙仮定よりコード化された意図的仮定を重視する終盤の主張が確認できる。 ## 口頭説明・補足講演は「This should never happen」というコメントを、設計時に不可能だと思われた状態が後に本番で起きる象徴として扱う。Brush は、各行のコードには執筆時の仮定が埋め込まれており、その仮定はシステムの変化で崩れると述べる。設計レビュー、ローンチレビュー、本番準備レビュー、コードレビューは必要だが、特定時点の予想に基づくため、変化し続けるシステム全体の信頼性を保証しきれない。 AI/LLM の導入については、コーディングや運用作業を速くする一方、作業が安くなるほど利用量が増えるというジェボンズのパラドックスで理解する。結果として SRE は、エージェントを組み込んださらに複雑なシステムを扱うことになる。AIOps は解の一部だが、非決定的に振る舞う別のシステムを既存システムに足すため、単純な解消ではなく複雑性の増加も伴う。後半では、根本原因を完全に再現してから深くデバッグするよりも、起きうるリスクを広く見つけて緩和する姿勢を強調する。エージェントはコードベース全体から欠けたリトライ、古いコマンド、エッジケース不足を探し、修正やテスト生成を助けられる。このため「最重要バグだけを直す」優先順位付けではなく、低コストで直せるリスクを広く減らす発想が必要になる。最後に、予測可能性は複雑システムの性質ではないため、プロジェクトを「A、B、C、D を実行すれば終わる」計画としてではなく、各実験から次の計画を学ぶ系列として扱うべきだと述べる。SLO やエラーバジェットはフィットネス関数の例であり、望ましい性質を継続的テストやアーキテクチャ制約としてコード化する方向へ SRE の仕事を移す。 ## 概念・実体への接続 - [[Michelle Brush]]: Google の SRE Engineering Director として、Compute Engine と Persistent Disk の信頼性責任を持つ登壇者。 - [[SRE]]: 予測困難な複雑システムを、SLO、エラーバジェット、汎用緩和、実験で管理する実践として再解釈している。 - [[agentic SRE]]: エージェントは調査・修正・テスト生成を支援できるが、システム複雑性も増やすため、単なる自動化ではなく安全な探索と継続検証が要る。 - [[LLMアプリケーション信頼性]]: LLM を含むシステムは、モデル出力の正しさだけでなく、エージェントが行う変更とその検証を含めて信頼性を扱う必要がある。 ## 限界・不確実点 - transcript は YouTube の英語自動字幕から生成したため、固有名や一部の単語に誤認識の可能性がある。 - 取得した動画は低解像度版であり、代表フレームの細かい文字は読めない箇所がある。画面上の詳細な数値・小さな注記は本文の根拠にしていない。 - 公式ページは概要・登壇者・日時・略歴の裏取りに使った。講演本文の詳細な解釈は transcript と代表フレームに依存する。