[Anatomy of An Incident - Google - Site Reliability Engineering](https://sre.google/resources/practices-and-processes/anatomy-of-an-incident/) Googleによる[[notes/sre/SRE]]のインシデントレスポンスの書籍。 ## 紹介文 システム設計をする上で、障害は避けられない。科学者やエンジニアは、未来を完全に把握することなく、入手可能な情報に基づいて解決策を実行します。次のゼロデイイベント、バイラルメディアのトレンド、気象災害、テクノロジーの変化などを常に予測することはできません。しかし、このようなインシデントがシステムに影響を与えたときに、対応する準備をすることはできます。 このレポートでは、SREとDevOpsの実践者、IT管理者、エンジニアリングリーダーを対象に、インシデントへの準備、対応、回復を支援するための方法を探ります。Ayelet Sachto氏、Adrienne Walcer氏、Jessie Yang氏のアドバイスにより、障害が発生した場合に対処するための準備方法について学ぶことができます。 インシデントマネジメントのライフサイクルのステージ:準備、対応、回復、緩和について学びます。 - インシデントに積極的に対処する:メトリクスやアラートを超えてエスカレートする問題 - 備えあれば憂いなし:災害ロールプレイとインシデント対応演習 - インシデント対応組織体制の特徴を学ぶ - インシデント発生後の復旧・緩和のステップを検討する - 何が問題だったのかを分析する事後検証の実施 - Googleの実例を探る。マヤの黙示録 - インシデントの影響を測定し、軽減する方法について学ぶ - ポストモーテムを予防と心理的安全のためのツールとして活用する ## 二次資料 - [【和訳まとめ】Anatomy of an Incident - Google - Site Reliability Engineering](https://zenn.dev/ofton/articles/121eaddee5e27c)