[Postmortem Action Items: Plan the Work and Work the Plan | USENIX](https://www.usenix.org/conference/srecon17americas/program/presentation/lueder)
> In the 2016 O'Reilly book Site Reliability Engineering, Google described our culture of blameless postmortems, and recommended that organizations institute a similar culture of postmortems after production incidents. This talk shares some best practices and challenges in designing an appropriate action item plan and subsequently executing that plan in a complex environment of competing priorities, resource limitations, and operational realities. We discuss best practices for developing high-quality action items (AIs) for a postmortem, plus methods of ensuring these AIs actually get implemented so that we dont suffer the exact same outage or even worse again. It's worth noting that Google teams are by no means perfect at formulating and executing postmortem action items. We still have a lot to learn in this difficult area, and are sharing our thoughts and strategies to give a starting point for discussion throughout the industry.
> 2016年に出版されたオライリーの書籍「Site Reliability Engineering」の中で、Googleは、私たちの[[Blameless Postmortem]]の文化について説明し、組織が本番のインシデント後に同様の事後処理の文化を導入することを推奨しています。この講演では、競合する優先事項、リソースの制限、運用上の現実などの複雑な環境において、適切なアクションアイテム計画を設計し、その後その計画を実行する際のベストプラクティスと課題を紹介します。本講演では、事後調査のための高品質なアクションアイテム(AI)を開発するためのベストプラクティスと、これらのAIが実際に実行され、全く同じ障害やそれ以上の事態に陥らないようにするための方法について説明します。なお、Googleのチームは、事後対策のアクションアイテムの策定と実行を決して完璧には行っていませんが、注目に値します。この難しい分野では、まだまだ学ぶことがたくさんあります。私たちの考えや戦略を共有することで、業界全体の議論の出発点にしたいと考えています。
![[Pasted image 20210915200611.png]]