# The Evolution of SRE at Google Googleにおける[[SRE]](Site Reliability Engineering)の進化は、単なる運用手法の改善にとどまらず、システム理論や制御理論を取り入れた「システム安全(System Safety)」へのパラダイムシフトへと向かっている。 ## 1. 誕生期(2003年〜):ソフトウェアエンジニアリングによる運用 * **背景**: 従来の「SysAdmin」モデルでは、システムのスケールに対して人員を比例させる必要があり限界に直面した。 * **転換**: Ben Treynor Slossが「ソフトウェアエンジニアに運用を任せる」という発想でSREチームを創設した。 * **核心**: 運用の自動化、エラー予算、[[SLO]](サービスレベル目標)、および「非難のない[[ポストモーテム]](Blameless Postmortems)」の文化を確立した。 ## 2. 拡大・標準化期(2010年代):業界標準への普及 * **書籍公開**: 2016年の書籍出版により、Google内部の手法が世界中に普及した。 * **課題の顕在化**: システムが「惑星規模」かつ「超複雑」になるにつれ、カスケード障害や予期せぬ相互作用が増加し、個別のコンポーネント故障を防ぐだけでは不十分となった。 ## 3. 現在と未来(2024年〜):システム理論の導入(SRE 3.0) * **STAMPの導入**: 複雑性に対処するため、STAMP(System-Theoretic Accident Model and Processes)フレームワークを採用し始めている。 * **パラダイムシフト**: 「個別の部品の故障を防ぐ」から「システム全体の相互作用と制御を管理する」アプローチへの移行である。 * **STPA (System-Theoretic Process Analysis)**: システム設計段階で障害発生前のハザード(危険)を分析する手法である。 * **CAST (Causal Analysis based on Systems Theory)**: 発生したインシデントの「単一の根本原因」を探すのではなく、システム全体の制御構造の欠陥を分析する手法である。 * **背景**: プライバシー侵害やデータ損失など、「エラー予算がゼロ(失敗が許されない)」領域が増加し、従来の統計的な信頼性管理に限界が生じたためである。 ## まとめ Googleは複雑すぎるシステムを「人間が理解可能な制御構造」として再定義し、AI時代のさらなる複雑性に備えようとしている。