# Google SRE Workbook - Chapter 8: On-Call
## 要約
本章は、2016 年 SRE Book 第 11 章「Being On-Call」への反応と実務上の疑問に答える形で、オンコールの設計・移行・負荷削減・チーム運営を詳述する。Google の新規 Mountain View SRE チームの立ち上げ、Evernote の Google Cloud Platform 移行後のオンコール再設計、ページャー負荷の分析、オンコール柔軟性、SRE と開発者の責任分担を扱う。中心主張は、オンコールは単なる待機当番ではなく、本番環境を所有し、SLO に基づいてアラートを選別し、未解決バグを構造化し、プロジェクト作業で根本的に負荷を下げる SRE の戦略的活動だという点である。
## 主要主張
- Google SRE のオンコール目標は、重要サービスのカバレッジとオンコール担当者の健康を同時に守ることである。SRE 作業はオンコールとプロジェクト作業の健全な混合でなければならない。
- SRE Book の基準では、12 時間シフトあたり最大 2 インシデントを目標とし、過大なページャー負荷には是正措置が必要である。
- 新しいチームが短期間でオンコールに入るには、スタータープロジェクト、チェックリスト、メンタリング、深掘り会、Wheel of Misfortune、シャドーオンコール、明確なハンドオフが有効である。
- Evernote の事例では、物理データセンター時代の低レベルアラートをクラウド環境へそのまま持ち込まず、API 応答性などユーザー影響に近い SLO 指標へページングを寄せた。
- ページングイベントは P1/P2/P3 のように扱いを分け、P1 は即時対応かつ SLO 影響を持つもの、P2 は翌営業日対応、P3 は情報のみとする。
- ページャー負荷の原因は、単発のアラート件数ではなく、同じ本番バグが何度ページを生むか、どのコンポーネントが主因か、他の監視信号と相関するかで分析すべきである。
- エラーバジェット違反時には新機能開発やロールアウトを止め、信頼性改善へ集中する。これはページャー負荷削減にも使える。
- オンコールスケジュールは公平性と個人事情を両立する必要があり、自動スケジューラ、ピアレビュー付きの交代、パートタイム勤務への対応、最小人員の余裕が必要である。
- DevOps チームを SRE に改称するだけでは不十分である。SRE が本番運用、信頼性ロードマップ、監視ルール、解決責任を所有し、必要ならコード変更まで担う責務へ変える必要がある。
## SRE Book との関係
- [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]] の量的・質的均衡原則を実務質問に展開した章である。
- [[@2016__OReilly__SRE Book - Chapter 28 Accelerating SRE On-Call]] のオンボーディングと訓練を、短期チーム立ち上げの実例で補強する。
- [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] のプロダクションミーティングを、21 日移動平均などのページャー負荷管理に接続する。
- [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] のエラーバジェットを、ページャー負荷削減と開発停止判断へ実装する。
## 概念候補
- [[オンコール]]
- [[ページャー負荷]]
- [[オンコール柔軟性]]
- [[オンコール心理的安全性]]
- [[SREオンボーディング]]
- [[SLOベースアラート]]
- [[プロダクションバグ]]
- [[運用過負荷]]
## 実体候補
- [[Ollie Cook]]
- [[Sara Smollett]]
- [[Andrea Spadaccini]]
- [[Cara Donnelly]]
- [[Jian Ma]]
- [[Garrett Plasky]]
- [[Stephen Thorne]]
- [[Jessie Yang]]
- [[Evernote]]
- [[Google Cloud Platform]]
- [[Google Apps]]
- [[Wheel of Misfortune]]
- [[Seeking SRE]]
## 統合時の更新候補
- [[SRE]]: SRE と従来型運用の差異として「本番環境の所有」「信頼性ロードマップ」「監視ルール」「コード変更」を追記する。
- [[インシデント管理]]: オンコールからインシデント宣言・エスカレーションへ接続する前段として追加する。
- [[エラーバジェット]]: エラーバジェットをページャー負荷と新機能停止に結びつける実践を追加する。
- [[サービスレベル目標]]: Evernote の事例として、低レベルインフラ指標から API 応答性などのユーザー影響指標へページングを寄せる例を追加する。
- [[トイル]]: オンコール中の非緊急本番作業とページャー負荷を、戦略的プロジェクトで削減する関係を追加する。
## 出典
- Ollie Cook, Sara Smollett, Andrea Spadaccini, Cara Donnelly, Jian Ma, Garrett Plasky, Stephen Thorne, Jessie Yang. "On-Call." In *The Site Reliability Workbook: Practical Ways to Implement SRE*. Google / O'Reilly Media, 2018. https://sre.google/workbook/on-call/