The Evolution of SRE at Google - yuuk1's Digital Garden

# The Evolution of SRE at Google Googleにおける[[SRE]]（Site Reliability Engineering）の進化は、単なる運用手法の改善にとどまらず、システム理論や制御理論を取り入れた「システム安全（System Safety）」へのパラダイムシフトへと向かっている。 ## 1. 誕生期（2003年〜）：ソフトウェアエンジニアリングによる運用 * **背景**: 従来の「SysAdmin」モデルでは、システムのスケールに対して人員を比例させる必要があり限界に直面した。 * **転換**: Ben Treynor Slossが「ソフトウェアエンジニアに運用を任せる」という発想でSREチームを創設した。 * **核心**: 運用の自動化、エラー予算、[[SLO]]（サービスレベル目標）、および「非難のない[[ポストモーテム]]（Blameless Postmortems）」の文化を確立した。 ## 2. 拡大・標準化期（2010年代）：業界標準への普及 * **書籍公開**: 2016年の書籍出版により、Google内部の手法が世界中に普及した。 * **課題の顕在化**: システムが「惑星規模」かつ「超複雑」になるにつれ、カスケード障害や予期せぬ相互作用が増加し、個別のコンポーネント故障を防ぐだけでは不十分となった。 ## 3. 現在と未来（2024年〜）：システム理論の導入（SRE 3.0） * **STAMPの導入**: 複雑性に対処するため、STAMP（System-Theoretic Accident Model and Processes）フレームワークを採用し始めている。 * **パラダイムシフト**: 「個別の部品の故障を防ぐ」から「システム全体の相互作用と制御を管理する」アプローチへの移行である。 * **STPA (System-Theoretic Process Analysis)**: システム設計段階で障害発生前のハザード（危険）を分析する手法である。 * **CAST (Causal Analysis based on Systems Theory)**: 発生したインシデントの「単一の根本原因」を探すのではなく、システム全体の制御構造の欠陥を分析する手法である。 * **背景**: プライバシー侵害やデータ損失など、「エラー予算がゼロ（失敗が許されない）」領域が増加し、従来の統計的な信頼性管理に限界が生じたためである。 ## まとめ Googleは複雑すぎるシステムを「人間が理解可能な制御構造」として再定義し、AI時代のさらなる複雑性に備えようとしている。