@2018__Google SRE Workbook__Part II Practices

# Google SRE Workbook - Part II: Practices ## 要約本ページは *The Site Reliability Workbook* の Part II 序文である。Part I Foundations で扱った SRE 原則を土台に、Google が大規模運用で重要と判断してきた具体的な SRE 活動へ移る。対象には、データ処理パイプライン、負荷管理、設定変更、カナリア、オンコール、インシデント対応、ポストモーテムなどが含まれる。すべての組織に同じ比重で当てはまるわけではないが、設定とカナリアによる安全な変更、オンコール実践、障害時の対応は多くの SRE チームに汎用的な教訓を持つ。さらに Part II は Non-Abstract Large System Design（NALSD）を重要スキルとして導入し、運用業務とプロジェクト作業を戦略的に両立させるためのエンジニアリングへ文脈をつなぐ。 ## 主要主張 - Part II は「原則」から「活動」への移行部である。SRE が何を信じるかではなく、どのような作業として実装するかを扱う。 - 大規模運用で重要な活動のうち、データ処理パイプラインや負荷管理は組織によって適用性が異なる。一方、設定変更、カナリア、オンコール、インシデント対応は多くの組織に共通する。 - NALSD は、抽象論ではなく具体的な制約、容量、障害モード、依存関係を前提に大規模システムを設計する SRE スキルである。 - 運用業務とプロジェクト作業を単純な時間配分問題として扱うだけでは不十分である。両者を戦略的に成立させるには、作業の設計と自動化、優先順位、組織的合意が必要である。 ## SRE Book との関係 - [[@2016__OReilly__SRE Book - Part III Practices]] のサービス信頼性ヒエラルキーを、より実務的なワークブック形式へ展開する導入部である。 - [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]]、[[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]]、[[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]]、[[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] への実践補強として位置づく。 - Part I Foundations の SLO・エラーバジェット・トイル削減から、Part II のオンコール・インシデント対応・変更管理へ橋渡しする。 ## 概念候補 - [[SRE実践体系]] - [[NALSD]] - [[安全な変更管理]] - [[カナリア]] - [[オンコール]] - [[インシデント対応]] - [[運用業務とプロジェクト作業]] ## 実体候補 - [[Betsy Beyer]] - [[Niall Murphy]] - [[David K. Rensin]] - [[Kent Kawahara]] - [[Stephen Thorne]] - [[Google]] - [[O'Reilly Media]] ## 統合時の更新候補 - [[SRE Book]]: SRE Workbook を 2016 年 SRE Book の実践的コンパニオンとして明記する。 - [[SRE]]: 原則から実践へ移る層として SRE Workbook Part II を追加する。 - [[サービスレベル目標]] / [[エラーバジェット]]: Foundations から Practices への接続として、SLO がオンコール・変更管理・インシデント対応の入力になることを追加する。 - [[インシデント管理]]: Part II 全体の中でオンコールとポストモーテムに挟まれる実践として位置づける。 ## 出典 - "Part II. Practices." In *The Site Reliability Workbook: Practical Ways to Implement SRE*. Google / O'Reilly Media, 2018. https://sre.google/workbook/part-II-practices/