- テクニカルな原因を見つけるのが難しい
- 原因調査と復旧作業どちらを優先すべきかの判断とそれを伝えるのが大変だった
- すべての作業をとめて復旧作業をおねがいするのは社歴の浅い人間や言いづらい立場の人は抵抗がありそう
- 障害振り返りをするときに Postmortem が自然言語になっていて解析しづらい
- タイトル
- 障害開始時刻, 終了時刻 (duration)
- 長いやつに着目する
- どうやったら短くできたか?
- 障害の原因
- コンポーネント単位とかサービス単位とか
- 障害のトリガー
- 人間によるオペレーション, アクセス増, …