# インフラ障害対応とポストモーテム
mixi developers ブログの記事。ポストモーテムの具体的なテンプレートと再発防止策の分類フレームワークを提示する。
## テンプレート構成
- **タイムライン**: 発生・発見・対応・復旧の各フェーズにおいて、日時・対応者・事象(関連 URL 含む)を記載
- **障害内容**: 何が起きたかの記述
- **影響**: サービスへの影響範囲
- **原因**: 根本原因の特定
- **対応**: 実施した対応内容
## 再発防止策の 4 分類
mixi は再発防止策を以下の 4 カテゴリに分類する:
| カテゴリ | 問い |
|---|---|
| **予防(Prevention)** | 障害の再発をポジティブに防ぐにはどうしたらよいか |
| **検出(Detection)** | 同様の障害を正確に検出するまでの時間を減らすにはどうするべきか |
| **緩和(Mitigation)** | 次回この種の障害が起きたときの深刻度や影響度を減らすにはどうしたらいいか |
| **修正(Correction)** | 次回障害が検出されたときにどうすればより速く回復できるか |
> [!key-insight] 再発防止策の 4 分類はインシデントライフサイクルの各段に対応する
> この 4 分類は [[インシデント管理]] の「検知→トリアージ→診断→緩和」に対応させると、予防=事前段階、検出=検知段、緩和=緩和段、修正=復旧段にマッピングできる。Google SRE Book のポストモーテムテンプレートと類似するが、「修正」を緩和と分離して明示している点が特徴。
## 文化面
「ポストモーテムを書いた人を賞賛する」——非難なき文化の醸成を重視。SRE Book Ch15 のブレームレスポストモーテムの日本企業での実践例。
## 既存 wiki との接続
- [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] のブレームレス文化を日本のウェブ企業が実践した事例
- [[@2018__Hatena Developer Blog__社内障害情報共有のススメ]] と並び、日本のウェブ企業におけるポストモーテム文化の具体的実装
- 一次レイヤーに [[Mixiのポストモーテム]](`notes/sre/Mixiのポストモーテム.md`)が存在