SRE Book - yuuk1's Digital Garden

# SRE Book ## 概要 "Site Reliability Engineering: How Google Runs Production Systems"（O'Reilly, 2016）は、[[Google]] が社内で培った SRE（Site Reliability Engineering）のプラクティスを体系的に公開した初の包括的文献である。[[Ben Treynor Sloss]] が創設した SRE というディシプリンを、原則・実践・管理の 3 部構成・全 34 章で詳述する。 ## 書誌情報 - 出版社: O'Reilly Media - 出版日: 2016-04-16 - 編者: [[Betsy Beyer]]、Chris Jones、Jennifer Petoff、[[Niall Murphy]] - 構成: 全 34 章、3 部構成（Principles / Practices / Management） - ISBN: 978-1-491-92912-4 - URL: https://sre.google/sre-book/table-of-contents/ ## 構成と主要テーマ ### Part I: Introduction（第 1〜2 章） SRE の定義と Google における位置づけ。[[Ben Treynor Sloss]] が SRE を「ソフトウェアエンジニアに運用の設計を任せたときに生まれるもの」と定義する。 ### Part II: Principles（第 3〜5 章）エラーバジェット、[[サービスレベル目標]]（SLO）、トイル削減など SRE の基本原則を定義する。 → [[@2016__OReilly__SRE Book - Chapter 5 Eliminating Toil]] ### Part III: Practices（第 6〜27 章）サービス信頼性ヒエラルキーに沿った具体的プラクティスを詳述する。モニタリング、インシデント対応、ポストモーテム、自動化、テスト、キャパシティプランニングなどを含む。 → [[@2016__OReilly__SRE Book - Part III Practices]] → [[@2016__OReilly__SRE Book - Chapter 6 Monitoring Distributed Systems]] → [[@2016__OReilly__SRE Book - Chapter 7 Automation at Google]] → [[@2016__OReilly__SRE Book - Chapter 10 Practical Alerting from Time-Series Data]] — Borgmon の設計と Prometheus への系譜、宣言型ルール評価、時系列ラベルモデル → [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]] — オンコールの量的・質的均衡、フォロー・ザ・サン、認知モード管理 → [[@2016__OReilly__SRE Book - Chapter 12 Effective Troubleshooting]] — 仮説演繹法、分割統治、トリアージと安定化の優先 → [[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]] — テスト誘発型障害 vs 訓練なし障害、人間の判断力とロールバック → [[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]] — ICS に基づく 4 役割、フリーランシングの害、非管理型インシデントの悪化 → [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] — ブレームレス文化、経営層参加、アクションアイテムの追跡 → [[@2016__OReilly__SRE Book - Chapter 16 Tracking Outages]] — Outalator、パッシブ集約、タグベースのメタデータ管理 → [[@2016__OReilly__SRE Book - Chapter 17 Testing for Reliability]] — テストと信頼性の定量関係、カナリアテスト、障害の次数（U） → [[@2016__OReilly__SRE Book - Chapter 18 Software Engineering in SRE]] — Auxon、意図ベースのキャパシティプランニング、混合整数計画法 ### Part IV: Management（第 28〜34 章） SRE チームの採用・育成・組織運営・他チームとの関係構築、そして結論。 → [[@2016__OReilly__SRE Book - Chapter 28 Accelerating SRE On-Call]] — Shadow→On-Call→Project Owner の段階的オンボーディング、逆ハンドオフ、DiRT 演習 → [[@2016__OReilly__SRE Book - Chapter 29 Dealing with Interrupts]] — 時間の二極化、コンテキストスイッチコスト、フロー状態 → [[@2016__OReilly__SRE Book - Chapter 30 Embedding an SRE to Recover from Operational Overload]] — 学習→文脈共有→変革推進の 3 フェーズ、SLO が最重要のてこ → [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] — プロダクションミーティング、ハンドオフ手法、チーム構成と連携 → [[@2016__OReilly__SRE Book - Chapter 32 The Evolving SRE Engagement Model]] — PRR→早期関与→フレームワーク、SRE プラットフォームチーム → [[@2016__OReilly__SRE Book - Chapter 33 Lessons Learned from Other Industries]] — 航空 CHIRP、医療、製造 CAPA、正常化された逸脱 → [[@2016__OReilly__SRE Book - Chapter 34 Conclusion]] ## 影響と位置づけ本書の出版は SRE を Google 固有の実践から業界標準のディシプリンへと転換した画期的な出来事である。エラーバジェット、ブレームレスポストモーテム、トイルの定量化、4 つのゴールデンシグナルなどの概念は、本書を通じて広く普及した。 ## 関連書籍 - **The Site Reliability Workbook**（O'Reilly, 2018）: 実践的なハウツーを補完するコンパニオン書籍。[[Betsy Beyer]]、[[Niall Murphy]] らが編者を務める。 - **Building Secure & Reliable Systems**（O'Reilly, 2020）: セキュリティと信頼性の統合を論じた関連書籍。 ## SRE Workbook との関係 [[SRE Workbook]] は本書の原則を導入手順へ落とす続編である。SRE Book が SLO・エラーバジェット・トイル・インシデント管理・ポストモーテム文化の語彙を定義したのに対し、Workbook は SLI 仕様/実装、SLO 文書、エラーバジェット方針、複数ウィンドウ複数バーン率アラート、オンコール負荷管理、ポストモーテムテンプレートへ具体化する。 ## 関連 - [[@2007__LISA__On Designing and Deploying Internet-Scale Services]]: 本書の思想的先駆者の一つ - [[@1983__Automatica__Ironies of Automation]]: 自動化の章で参照される古典 - [[Google]]: 本書の母体組織 ## 出典 - Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Murphy (eds.), *Site Reliability Engineering: How Google Runs Production Systems*, O'Reilly, 2016