# Google SRE Workbook - Chapter 9: Incident Response
## 要約
本章は、複数人・複数チームが関与する緊急問題をどう構造化して扱うかを、Google と PagerDuty の事例で説明する。冒頭で「インシデントの解決」と「インシデントの管理」を分け、前者は影響緩和または復旧、後者は対応者の調整と情報流通だと定義する。Google のインシデント対応は Incident Command System(ICS)に基づき、Incident Commander、Communications Lead、Operations Lead を中心に構成される。ケーススタディでは、Google Home の週末ロールアウト障害、GKE の欧州クラスタ作成障害、Persistent Disk の停電起因障害、PagerDuty の NTP クロックドリフトを扱い、早期宣言、役割分担、戦争部屋、作業記録、外部コミュニケーション、訓練の効果を示す。
## 主要主張
- インシデント対応では、技術的な復旧作業と対応全体の管理を分離する必要がある。復旧だけに集中すると、調整・記録・利害関係者への通知が抜け落ちる。
- Incident Command System はソフトウェア障害にも有効である。中核は 3C、すなわち調整、コミュニケーション、統制である。
- 主な役割は Incident Commander(IC)、Communications Lead(CL)、Operations Lead(OL)である。IC は未委任の役割をすべて引き受け、必要に応じて CL と OL を委任する。
- Google Home 事例では、問題が継続しユーザー報告が増えていたにもかかわらず、インシデント宣言が遅れ、通常のバグ管理で対応したため、誤解と週末の人的負荷が増えた。
- GKE 事例では、CreateCluster 失敗に対して早期にインシデントを宣言したものの、当初は構造が弱く、経験豊富な SRE が IC を引き継いで OL/CL を立てた後に対応が整理された。
- Persistent Disk 事例では、停電で多数のディスクトレイが失われた複雑な障害に対し、早期宣言と明確なリーダーシップにより、通常復旧と GCE/Persistent Disk 横断の顧客影響緩和を並行して進めた。
- PagerDuty 事例では、Failure Friday、時間制限付きシミュレーション、過去インシデントの学習、通話録音、Slack、静的電話会議番号により、インシデント対応プロセスを継続的に鍛えている。
- インシデント対応の設計は発生前に行う。通信チャネル、連絡先、公開コミュニケーションのテンプレート、宣言基準、訓練計画を事前に決める。
- DiRT、Wheel of Misfortune、低リスクな問題を大規模インシデントとして扱う練習などにより、対応の筋肉記憶を作る。
## SRE Book との関係
- [[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]] の ICS ベースの役割分担を、Google Home/GKE/Persistent Disk/PagerDuty の事例で実践的に補強する。
- [[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]] の「練習が MTTR を左右する」という主張を、DiRT、Wheel of Misfortune、Failure Friday へ広げる。
- [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] とは、作業記録とポストモーテム分析の入力を整える関係にある。
- [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] のコミュニケーション設計を、インシデント時の CL と外部コミュニケーションへ具体化する。
## 概念候補
- [[インシデント対応]]
- [[Incident Command System]]
- [[Incident Commander]]
- [[Communications Lead]]
- [[Operations Lead]]
- [[3C of Incident Management]]
- [[戦争部屋]]
- [[インシデント訓練]]
- [[Failure Friday]]
- [[DiRT]]
- [[Wheel of Misfortune]]
## 実体候補
- [[Jennifer Mace]]
- [[Jelena Oertel]]
- [[Stephen Thorne]]
- [[Arup Chakrabarti]]
- [[Jian Ma]]
- [[Jessie Yang]]
- [[PagerDuty]]
- [[Google Home]]
- [[Google Assistant]]
- [[Google Kubernetes Engine]]
- [[Google Container Registry]]
- [[Google Compute Engine]]
- [[Persistent Disk]]
- [[Slack]]
- [[Netflix Simian Army]]
## 統合時の更新候補
- [[インシデント管理]]: 3C、IC/CL/OL、Google Home/GKE/Persistent Disk/PagerDuty のケース比較を追加する。
- [[根本原因分析]]: インシデント中の作業記録がポストモーテムと RCA の入力になることを追記する。
- [[障害緩和]]: 根本原因特定より先にユーザー影響を止める「緩和優先」を追加する。
- [[SRE]]: インシデント対応訓練を SRE の継続的実践として追記する。
- [[Google]] / [[PagerDuty]]: それぞれのインシデント対応プロセスと事例を追加する。
## 出典
- Jennifer Mace, Jelena Oertel, Stephen Thorne, Arup Chakrabarti, Jian Ma, Jessie Yang. "Incident Response." In *The Site Reliability Workbook: Practical Ways to Implement SRE*. Google / O'Reilly Media, 2018. https://sre.google/workbook/incident-response/