[開発チームをインシデント対応に慣れさせてくれる「インシデント対応チェックリスト」の導入 | 株式会社ヌーラボ(Nulab inc.)](https://nulab.com/ja/blog/backlog/incident-response-checklist/)
- オンコール体制
- 2019年から開発チーム自身がオンコール
- [[Backlogのアラート通知システム]]
- 「インシデント指揮者」としての役割を、SREチームから開発チームにうまく引き継げなかった
- 解決が難しい障害の場合は、オンコール担当者が調査に時間をかけてしまい、顧客連絡や、他の開発者やSREとの共同作業が遅れがち
- アプリケーション関係のインシデントでもSREがインシデント指揮者になる
- アプリケーション開発チームで、インシデント指揮したい
- インシデント指揮者が取るべきタスクをチェックリストとして簡略化し、かつそのチェックリストを情報共有のためのホワイトボードとしても使えばいいのではないか?
- インシデント対応チェックリスト (Google Docs)
- チェックリスト
- インシデント対応チームのビルディング
- 役割ごとのチェック項目
- 対応記録欄
- 現在のステータス、役割分担、障害発生時刻、影響範囲など
- 小規模な障害ではチェックリストを作っても結局使わないことも