@2022__SREcon22APAC__A Post Incident Review Review

# A Post Incident Review Review Navigation: [[index]] | [[log]] | [[hot]] ## 概要 [[Tom Partington]]（[[ANZx]]、@parmigiana）が SREcon22 APAC（2022-12-09）で発表した53ページのスライド。副題は「PIR²（PIR の PIR）」で、ANZx が採用する**根本原因なし・アクションアイテムなし・MTTx なし**というPIR プロセスの設計思想と、その裏付けとなる安全科学（Safety Science）を3部構成で解説する。高度規制産業・1000人超組織での実践報告であり、再発インシデントがまれという実績を持つ。 ## 主要メッセージ - **PIR スタイルの系譜**（p.8–30）— よくある5形式を分析し、機械論的推論の限界を示す。 - **ANZx のプロセス**（p.31–41）— Record と Report の分離、タイムラインウォーク、Lessons（5問）、ブレームアウェアデブリーフ。 - **「learning > fixing」**（p.44）— PIRの90.5%がまず修復アイテムを記録するが、学習こそが中心目標であるべき。 - **MTTx の否定**（p.45）— MTTx は取り消し線で表示。SLO をトリガーとした定性評価を重視。 - **Safety II への展望**（p.49）— 事故分析（Safety I）から「時事がうまくいっている時」の分析（Safety II）へ。 ## 視覚的に重要な図表 **p.15 Rasmussen's Safety Model** ![[_attachments/srecon22apac-partington/page-015.png]] 業務（Work）が Workload Boundary・Economic Boundary・Performance Boundary の3境界に挟まれた空間内で行われることを示す。各境界への圧力が重なるとき障害が起きる。 **p.21 Causal Map（DB クラッシュ事例）** ![[_attachments/srecon22apac-partington/page-021.png]] 単一DBでレプリケーションなし→ディスクフル→DBクラッシュ→サービス停止の因果グラフ。発端ノード：time pressures・No SREs for service・licensing costs for replication・no Platform managed DB solution・accepted tech-debt・mandated service use・DB growth。複数の組織的圧力が重なった典型例。 **p.28 調査方向とタイムライン** ![[_attachments/srecon22apac-partington/page-028.png]] インシデントは時間軸の右端にあり、調査は左方向（過去）へ遡る。イベント列→インシデントの構造を示す。 **p.33 Record vs Report 比較表** ![[_attachments/srecon22apac-partington/page-033.png]] Incident Record（詳細・影響・ナラティブ・タイムライン?）に対し Incident Report はデブリーフ・教訓・修復候補・提言を追加する。ANZx はこの区別を明示することで PIR の目的を整理している。 **p.40 Lessons の5問** ![[_attachments/srecon22apac-partington/page-040.png]] What surprised us? / What went well? / What was difficult? / Where did we get lucky? / What don't we understand?。修復中心ではなく経験的知識の抽出を促す設問設計。 **p.43 PIR に何が含まれるか（J Paul Reed 調査）** ![[_attachments/srecon22apac-partington/page-043.png]] 修復アイテム90.5%、タイムライン85.3%、技術分析66.8%、顧客影響60.8%、組織対応58.9%、ビジネス影響56.7%。学習を直接促す要素の割合は相対的に低い。 **p.49 Safety I → Safety II** ![[_attachments/srecon22apac-partington/page-049.png]] ベル曲線で示す。Safety I は事象が「うまくいかない時」の左裾に焦点。Safety II は分布全体、とくに「うまくいっている時」（time stuff goes right）の多数領域に焦点を当てる。 ## ANZx のプロセス詳細（Part 2） 1. **インシデントの承認** — インシデント直後に「X インシデントについて今わかっていること」ミーティングを開催。 2. **Record vs Report の区別** — Incident Record（事実記録）と Incident Report（学習文書）を分離。 3. **ナラティブ** — 時系列に沿った物語として記録。因果連鎖ではなく文脈を保持。 4. **デブリーフ（デブリーフグラウンドルール）** — ブレームアウェアな前提でタイムラインをウォーク。反実仮想・「すべき」を避け、好奇心を持つよう促す（p.50）。 5. **Lessons** — 5問（上記図参照）で驚き・成功・困難・運・謎を可視化。 6. **ブレインストーミング** — 改善候補のアイデア出し（義務的アクションアイテムにしない）。 7. **提言（Recommendations）** — 義務でなく提言として記録。 ## PIR スタイルの系譜（Part 1） | スタイル | 問題点 | |---|---| | 1. （未ラベル）| テキスト抽出では項目名なし | | 2. Why×5（5なぜ）| 機械論的推論が前提、根本原因への一本道 | | 3. ブレーム型（"[名前] が忘れた"） | 個人への帰着、Second Victim 問題 | | 4. Causal Map | 因果マップは複雑系の多因子を示せるが作成コストが高い | | 5. Blame Aware After Action Review | ANZx が採用に近いスタイル | ## 引用・参照文献 - [[J Paul Reed]]: Maps, Context, and Tribal Knowledge（Lund 大学博士論文） - [[Richard I. Cook]]: How Complex Systems Fail - [[Sidney Dekker]]: The Field Guide to Understanding 'Human Error' / Second Victim / Just Culture - [[Jens Rasmussen]]: Risk management in a dynamic society - [[James Reason]]: Swiss Cheese Model / Human error: models and management - STELLA Report（SNAFUcatchers Workshop、2017）/ Woods' Theorem - [[Erik Hollnagel]]: From Safety-I to Safety-II: A White Paper - [[John Allspaw]]: Blameless Postmortems / The infinite how's - [[Jeli]]: Howie: The Post-Incident Guide（2021, Dr. Laura Maguire, Nora Jones, Vanessa Huerta Granda） - [[Etsy]]: Debriefing Facilitation Guide（2016, John Allspaw, Morgan Evans, Daniel Schauenberg） ## 概念・実体への接続 - [[ポストモーテム]]（根本原因なし・アクションアイテムなし・MTTxなし設計） - [[人的要因]]（機械論的推論への批判、Dekker's Tunnel） - [[レジリエンスエンジニアリング]]（Safety I → Safety II） - [[事故モデル]]（スイスチーズモデル、Rasmussen モデル） - [[Tom Partington]]（登壇者） - [[ANZx]]（所属組織） ## 限界・不確実点 - p.8 の PIR スタイル「1.」の内容はスライド上では表示なし（アニメーション式で口頭説明と思われる）。transcript なし。 - p.29 の画像は API により取得不可（内容不明）。前後の文脈から Blame Aware After Action Review の事例スライドと推測。 - Debrief Ground Rules（p.50）は ANZx の公式スクリプトとして引用しているが、公式文書としての URL は不明。