[Best Practices for Writing Incident Postmortems | Datadog](https://www.datadoghq.com/ja/blog/incident-postmortem-process-best-practices/) Datadogによるポストモーテムのベストプラクティスと、Datadogの機能によりポストモーテムをシームレスに記述することをサポートできることが書かれている。 - **共有ビューにデータを集める** - ベストプラクティス - 調査中にデータをドキュメントやメッセージフィードなど、共通してアクセスできる場所に集めておく - インシデントに対応する際に使用する場所と同じ場所であることが理想的 - 複数の通信回線を管理しなくてよい - 複数のソースから情報を収集しなくてよいので、ポストモーテムのドキュメントに変換することも容易。 - 最小限のクリックで、監視プラットフォームからグラフを共有ビューにエクスポートできる - Slackから会話をエクスポートできる - コメントを残せる - DDの機能 - インシデントを宣言すると、収集したデータを[Incident Timeline](docs.datadoghq.com/ja/monitors/incident_management)にエクスポートできる - 追加の関連メトリクスのグラフやコンテキストを示すSlackメッセージなどの情報を収集 - **共有ビューからポストモーテムを自動生成** - ベストプラクティス - ポストモーテムを簡単に開始できるテンプレート、チェックリスト、またはガイドラインを作成する必要があり - DDの機能 - 数回クリックするだけで、インシデントのメタデータからほぼ完全なポストモーテムを自動的に生成できる - 現在のポストモーテムの構造に合わせてカスタムテンプレートを作成できる - テンプレートには、ライブグラフや、原因や顧客への影響などの重要な詳細を含む、Incident Timelineからのイベントが自動的に入力される。 - **調査を進めるための思考ツールとして、ポストモーテムを利用する** - ベストプラクティス - ポストモーテムは、読み手が会話をしたり、追加のコンテキストを得たり、根本原因の分析を改良したりできるような生きたドキュメントである - チームメンバーがコメントできるようにして、データや分析を簡単に追加できるようにする必要がある - DDの機能 - Collaborative Notebooksは、完全に編集可能で、コメントを残せる。 - 静的なグラフよりライブグラフ。タイムフレームなどのパラメータをあとでいじれるため。 - **自分のチームや他の人が後から見つけやすいようにポストモーテムを作成する。** - ベストプラクティス - 検索を容易にするために、インシデントやポストモーテムには説明的なタグやタイトルを付ける - サービス単位の障害に関心がある場合、サービス名をタグ付けするなど - DDの機能 - サービス、Availability zone、その他のDatadogタグが使える - ポストモーテムをPDF、Markdown、またはフォーマットされたテキストとしてエクスポート可能 ### 感想 - Incident Timeline相当の機能は、前職ではGoogle Docsで代用していたが、監視ツールからグラフを貼り付けたりすることはできなかった。 - Google Docsが使用されている例 [[Freeeのインシデントレスポンスのフロー]] - ポストモーテムの自動生成機能は便利そうだけど、原因や対策の自動生成は難しそうにみえる。 - DDのように、監視プラットフォームにインシデント管理の機能が含まれると、当然のことながら、Observabilityデータとインシデントの紐付けが簡単にできるのが強い。 ポストモーテムには、ライブグラフも含める(または少なくともリンクする)必要があります。静的なグラフは、グラフのパラメータ(タイムフレーム、メトリクス、フィルタ、集計グループ)を調査の特定のポイントに結び付けます。一方、ライブグラフでは、回答者はこれらのパラメータを変更することができるため、1つのグラフからより多くの情報を引き出すことができ、仮定に疑問を持ち、より多くのコンテキストを得て、さらに調査を進めることができます。 Datadogでは、ノートブック内のグラフ(ポストモーテムを含む)はライブです。つまり、グラフを展開してグラフエディタを表示し、メトリッククエリ内のタイムフレーム、タグ、その他のパラメータを調整することができます。これにより、これまで予想できなかった異常値や、トレンドに新たな光を当てるより広い時間枠など、グラフの新たな側面を容易に明らかにすることができます。 例えば、事後調査でグラフを拡大すると、ユーザーからサポートチケットを受け取っていないにもかかわらず、インシデントの記録された開始時刻の少なくとも1週間前からエラー率が上昇していたことがわかりました。その後、拡大表示したグラフを事後報告に追加して、読者がデータの全体像を把握できるようにしたり、事後報告をより正確なものに修正したり、調査範囲を変更したりすることができます。