> [!abstract] 概要
> SRE Book の序論。SRE が対象とする問題領域——運用ライフサイクル——の重要性を 3 つの次元で示し、[[Margaret Hamilton]] の Apollo プログラムを SRE の源流として位置づけ、本書の構成を提示する。
## 書誌情報
- 書名: Site Reliability Engineering: How Google Runs Production Systems
- 編者: [[Betsy Beyer]], Chris Jones, Jennifer Petoff, [[Niall Murphy]]
- 出版: O'Reilly Media, 2016 年 4 月
## 要旨
### 運用ライフサイクルの支配的コスト
SRE は設計・構築ではなく、システムの**運用ライフサイクル**に焦点を当てる。編者らは、システムの総所有コストの 40〜90% が初期開発ではなく運用に費やされると指摘する。この圧倒的な比率が、運用を専門の工学的規律として扱う根拠である。
### 3 つの次元
SRE を特徴づける 3 つの次元が提示される。
1. **エンジニア(Engineers)**: コンピュータサイエンスの原則を分散システムの運用に適用する。従来の運用者とは異なり、ソフトウェア工学的な手法で問題に取り組む。
2. **信頼性への焦点(Reliability Focus)**: 「信頼性はあらゆる製品の最も根本的な機能(feature)である」。ユーザーが製品を利用できなければ、他の機能はすべて意味をなさない。
3. **サービス運用(Service Operations)**: 惑星規模(planet-scale)のサービスを運用する。[[Google]] の検索、Gmail、YouTube 等の規模は従来の運用手法の限界を超える。
### SRE の先駆——Apollo プログラム
[[Margaret Hamilton]] が NASA の Apollo プログラムで行った仕事が SRE の先駆的事例として言及される。Hamilton はソフトウェアの信頼性を工学的に追求し、ミッションクリティカルなシステムのエラー処理と回復を体系化した。この精神は現代の SRE に通底する。
### 本書の構成
本書は以下の 4 部で構成される。
- **第 I 部 原則(Principles)**: [[エラーバジェット]]、[[サービスレベル目標]]、[[トイル]]の削減など SRE の基本原則
- **第 II 部 実践(Practices)**: モニタリング、アラート、オンコール、障害対応、ポストモーテムなどの実務
- **第 III 部 管理(Management)**: チーム構成、採用、教育、コミュニケーション
- **第 IV 部 結論(Conclusions)**: SRE の将来と他組織への適用