@2018__Google SRE Workbook__Incident Response

# Google SRE Workbook - Chapter 9: Incident Response ## 要約本章は、複数人・複数チームが関与する緊急問題をどう構造化して扱うかを、Google と PagerDuty の事例で説明する。冒頭で「インシデントの解決」と「インシデントの管理」を分け、前者は影響緩和または復旧、後者は対応者の調整と情報流通だと定義する。Google のインシデント対応は Incident Command System（ICS）に基づき、Incident Commander、Communications Lead、Operations Lead を中心に構成される。ケーススタディでは、Google Home の週末ロールアウト障害、GKE の欧州クラスタ作成障害、Persistent Disk の停電起因障害、PagerDuty の NTP クロックドリフトを扱い、早期宣言、役割分担、戦争部屋、作業記録、外部コミュニケーション、訓練の効果を示す。 ## 主要主張 - インシデント対応では、技術的な復旧作業と対応全体の管理を分離する必要がある。復旧だけに集中すると、調整・記録・利害関係者への通知が抜け落ちる。 - Incident Command System はソフトウェア障害にも有効である。中核は 3C、すなわち調整、コミュニケーション、統制である。 - 主な役割は Incident Commander（IC）、Communications Lead（CL）、Operations Lead（OL）である。IC は未委任の役割をすべて引き受け、必要に応じて CL と OL を委任する。 - Google Home 事例では、問題が継続しユーザー報告が増えていたにもかかわらず、インシデント宣言が遅れ、通常のバグ管理で対応したため、誤解と週末の人的負荷が増えた。 - GKE 事例では、CreateCluster 失敗に対して早期にインシデントを宣言したものの、当初は構造が弱く、経験豊富な SRE が IC を引き継いで OL/CL を立てた後に対応が整理された。 - Persistent Disk 事例では、停電で多数のディスクトレイが失われた複雑な障害に対し、早期宣言と明確なリーダーシップにより、通常復旧と GCE/Persistent Disk 横断の顧客影響緩和を並行して進めた。 - PagerDuty 事例では、Failure Friday、時間制限付きシミュレーション、過去インシデントの学習、通話録音、Slack、静的電話会議番号により、インシデント対応プロセスを継続的に鍛えている。 - インシデント対応の設計は発生前に行う。通信チャネル、連絡先、公開コミュニケーションのテンプレート、宣言基準、訓練計画を事前に決める。 - DiRT、Wheel of Misfortune、低リスクな問題を大規模インシデントとして扱う練習などにより、対応の筋肉記憶を作る。 ## SRE Book との関係 - [[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]] の ICS ベースの役割分担を、Google Home/GKE/Persistent Disk/PagerDuty の事例で実践的に補強する。 - [[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]] の「練習が MTTR を左右する」という主張を、DiRT、Wheel of Misfortune、Failure Friday へ広げる。 - [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] とは、作業記録とポストモーテム分析の入力を整える関係にある。 - [[@2016__OReilly__SRE Book - Chapter 31 Communication and Collaboration in SRE]] のコミュニケーション設計を、インシデント時の CL と外部コミュニケーションへ具体化する。 ## 概念候補 - [[インシデント対応]] - [[Incident Command System]] - [[Incident Commander]] - [[Communications Lead]] - [[Operations Lead]] - [[3C of Incident Management]] - [[戦争部屋]] - [[インシデント訓練]] - [[Failure Friday]] - [[DiRT]] - [[Wheel of Misfortune]] ## 実体候補 - [[Jennifer Mace]] - [[Jelena Oertel]] - [[Stephen Thorne]] - [[Arup Chakrabarti]] - [[Jian Ma]] - [[Jessie Yang]] - [[PagerDuty]] - [[Google Home]] - [[Google Assistant]] - [[Google Kubernetes Engine]] - [[Google Container Registry]] - [[Google Compute Engine]] - [[Persistent Disk]] - [[Slack Technologies|Slack]] - [[Netflix Simian Army]] ## 統合時の更新候補 - [[インシデント管理]]: 3C、IC/CL/OL、Google Home/GKE/Persistent Disk/PagerDuty のケース比較を追加する。 - [[根本原因分析]]: インシデント中の作業記録がポストモーテムと RCA の入力になることを追記する。 - [[障害緩和]]: 根本原因特定より先にユーザー影響を止める「緩和優先」を追加する。 - [[SRE]]: インシデント対応訓練を SRE の継続的実践として追記する。 - [[Google]] / [[PagerDuty]]: それぞれのインシデント対応プロセスと事例を追加する。 ## 出典 - Jennifer Mace, Jelena Oertel, Stephen Thorne, Arup Chakrabarti, Jian Ma, Jessie Yang. "Incident Response." In *The Site Reliability Workbook: Practical Ways to Implement SRE*. Google / O'Reilly Media, 2018. https://sre.google/workbook/incident-response/