# Google SRE Workbook - Chapter 8: On-Call ## 要約 本章は、2016 年 SRE Book 第 11 章「Being On-Call」への反応と実務上の疑問に答える形で、オンコールの設計・移行・負荷削減・チーム運営を詳述する。Google の新規 Mountain View SRE チームの立ち上げ、Evernote の Google Cloud Platform 移行後のオンコール再設計、ページャー負荷の分析、オンコール柔軟性、SRE と開発者の責任分担を扱う。中心主張は、オンコールは単なる待機当番ではなく、本番環境を所有し、SLO に基づいてアラートを選別し、未解決バグを構造化し、プロジェクト作業で根本的に負荷を下げる SRE の戦略的活動だという点である。 ## 主要主張 - Google SRE のオンコール目標は、重要サービスのカバレッジとオンコール担当者の健康を同時に守ることである。SRE 作業はオンコールとプロジェクト作業の健全な混合でなければならない。 - SRE Book の基準では、12 時間シフトあたり最大 2 インシデントを目標とし、過大なページャー負荷には是正措置が必要である。 - 新しいチームが短期間でオンコールに入るには、スタータープロジェクト、チェックリスト、メンタリング、深掘り会、Wheel of Misfortune、シャドーオンコール、明確なハンドオフが有効である。 - Evernote の事例では、物理データセンター時代の低レベルアラートをクラウド環境へそのまま持ち込まず、API 応答性などユーザー影響に近い SLO 指標へページングを寄せた。 - ページングイベントは P1/P2/P3 のように扱いを分け、P1 は即時対応かつ SLO 影響を持つもの、P2 は翌営業日対応、P3 は情報のみとする。 - ページャー負荷の原因は、単発のアラート件数ではなく、同じ本番バグが何度ページを生むか、どのコンポーネントが主因か、他の監視信号と相関するかで分析すべきである。 - エラーバジェット違反時には新機能開発やロールアウトを止め、信頼性改善へ集中する。これはページャー負荷削減にも使える。 - オンコールスケジュールは公平性と個人事情を両立する必要があり、自動スケジューラ、ピアレビュー付きの交代、パートタイム勤務への対応、最小人員の余裕が必要である。 - DevOps チームを SRE に改称するだけでは不十分である。SRE が本番運用、信頼性ロードマップ、監視ルール、解決責任を所有し、必要ならコード変更まで担う責務へ変える必要がある。 ## SRE Book との関係 - [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]] の量的・質的均衡原則を実務質問に展開した章である。 - [[@2016__OReilly__SRE Book - Chapter 28 Accelerating SRE On-Call]] のオンボーディングと訓練を、短期チーム立ち上げの実例で補強する。 - [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] のプロダクションミーティングを、21 日移動平均などのページャー負荷管理に接続する。 - [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] のエラーバジェットを、ページャー負荷削減と開発停止判断へ実装する。 ## 概念候補 - [[オンコール]] - [[ページャー負荷]] - [[オンコール柔軟性]] - [[オンコール心理的安全性]] - [[SREオンボーディング]] - [[SLOベースアラート]] - [[プロダクションバグ]] - [[運用過負荷]] ## 実体候補 - [[Ollie Cook]] - [[Sara Smollett]] - [[Andrea Spadaccini]] - [[Cara Donnelly]] - [[Jian Ma]] - [[Garrett Plasky]] - [[Stephen Thorne]] - [[Jessie Yang]] - [[Evernote]] - [[Google Cloud Platform]] - [[Google Apps]] - [[Wheel of Misfortune]] - [[Seeking SRE]] ## 統合時の更新候補 - [[SRE]]: SRE と従来型運用の差異として「本番環境の所有」「信頼性ロードマップ」「監視ルール」「コード変更」を追記する。 - [[インシデント管理]]: オンコールからインシデント宣言・エスカレーションへ接続する前段として追加する。 - [[エラーバジェット]]: エラーバジェットをページャー負荷と新機能停止に結びつける実践を追加する。 - [[サービスレベル目標]]: Evernote の事例として、低レベルインフラ指標から API 応答性などのユーザー影響指標へページングを寄せる例を追加する。 - [[トイル]]: オンコール中の非緊急本番作業とページャー負荷を、戦略的プロジェクトで削減する関係を追加する。 ## 出典 - Ollie Cook, Sara Smollett, Andrea Spadaccini, Cara Donnelly, Jian Ma, Garrett Plasky, Stephen Thorne, Jessie Yang. "On-Call." In *The Site Reliability Workbook: Practical Ways to Implement SRE*. Google / O'Reilly Media, 2018. https://sre.google/workbook/on-call/