> [!abstract] 概要 > SRE Book の序論。SRE が対象とする問題領域——運用ライフサイクル——の重要性を 3 つの次元で示し、[[Margaret Hamilton]] の Apollo プログラムを SRE の源流として位置づけ、本書の構成を提示する。 ## 書誌情報 - 書名: Site Reliability Engineering: How Google Runs Production Systems - 編者: [[Betsy Beyer]], Chris Jones, Jennifer Petoff, [[Niall Murphy]] - 出版: O'Reilly Media, 2016 年 4 月 ## 要旨 ### 運用ライフサイクルの支配的コスト SRE は設計・構築ではなく、システムの**運用ライフサイクル**に焦点を当てる。編者らは、システムの総所有コストの 40〜90% が初期開発ではなく運用に費やされると指摘する。この圧倒的な比率が、運用を専門の工学的規律として扱う根拠である。 ### 3 つの次元 SRE を特徴づける 3 つの次元が提示される。 1. **エンジニア(Engineers)**: コンピュータサイエンスの原則を分散システムの運用に適用する。従来の運用者とは異なり、ソフトウェア工学的な手法で問題に取り組む。 2. **信頼性への焦点(Reliability Focus)**: 「信頼性はあらゆる製品の最も根本的な機能(feature)である」。ユーザーが製品を利用できなければ、他の機能はすべて意味をなさない。 3. **サービス運用(Service Operations)**: 惑星規模(planet-scale)のサービスを運用する。[[Google]] の検索、Gmail、YouTube 等の規模は従来の運用手法の限界を超える。 ### SRE の先駆——Apollo プログラム [[Margaret Hamilton]] が NASA の Apollo プログラムで行った仕事が SRE の先駆的事例として言及される。Hamilton はソフトウェアの信頼性を工学的に追求し、ミッションクリティカルなシステムのエラー処理と回復を体系化した。この精神は現代の SRE に通底する。 ### 本書の構成 本書は以下の 4 部で構成される。 - **第 I 部 原則(Principles)**: [[エラーバジェット]]、[[サービスレベル目標]]、[[トイル]]の削減など SRE の基本原則 - **第 II 部 実践(Practices)**: モニタリング、アラート、オンコール、障害対応、ポストモーテムなどの実務 - **第 III 部 管理(Management)**: チーム構成、採用、教育、コミュニケーション - **第 IV 部 結論(Conclusions)**: SRE の将来と他組織への適用