# A Post Incident Review Review Navigation: [[index]] | [[log]] | [[hot]] ## 概要 [[Tom Partington]]([[ANZx]]、@parmigiana)が SREcon22 APAC(2022-12-09)で発表した53ページのスライド。副題は「PIR²(PIR の PIR)」で、ANZx が採用する**根本原因なし・アクションアイテムなし・MTTx なし**というPIR プロセスの設計思想と、その裏付けとなる安全科学(Safety Science)を3部構成で解説する。高度規制産業・1000人超組織での実践報告であり、再発インシデントがまれという実績を持つ。 ## 主要メッセージ - **PIR スタイルの系譜**(p.8–30)— よくある5形式を分析し、機械論的推論の限界を示す。 - **ANZx のプロセス**(p.31–41)— Record と Report の分離、タイムラインウォーク、Lessons(5問)、ブレームアウェアデブリーフ。 - **「learning > fixing」**(p.44)— PIRの90.5%がまず修復アイテムを記録するが、学習こそが中心目標であるべき。 - **MTTx の否定**(p.45)— MTTx は取り消し線で表示。SLO をトリガーとした定性評価を重視。 - **Safety II への展望**(p.49)— 事故分析(Safety I)から「時事がうまくいっている時」の分析(Safety II)へ。 ## 視覚的に重要な図表 **p.15 Rasmussen's Safety Model** ![[_attachments/srecon22apac-partington/page-015.png]] 業務(Work)が Workload Boundary・Economic Boundary・Performance Boundary の3境界に挟まれた空間内で行われることを示す。各境界への圧力が重なるとき障害が起きる。 **p.21 Causal Map(DB クラッシュ事例)** ![[_attachments/srecon22apac-partington/page-021.png]] 単一DBでレプリケーションなし→ディスクフル→DBクラッシュ→サービス停止の因果グラフ。発端ノード:time pressures・No SREs for service・licensing costs for replication・no Platform managed DB solution・accepted tech-debt・mandated service use・DB growth。複数の組織的圧力が重なった典型例。 **p.28 調査方向とタイムライン** ![[_attachments/srecon22apac-partington/page-028.png]] インシデントは時間軸の右端にあり、調査は左方向(過去)へ遡る。イベント列→インシデントの構造を示す。 **p.33 Record vs Report 比較表** ![[_attachments/srecon22apac-partington/page-033.png]] Incident Record(詳細・影響・ナラティブ・タイムライン?)に対し Incident Report はデブリーフ・教訓・修復候補・提言を追加する。ANZx はこの区別を明示することで PIR の目的を整理している。 **p.40 Lessons の5問** ![[_attachments/srecon22apac-partington/page-040.png]] What surprised us? / What went well? / What was difficult? / Where did we get lucky? / What don't we understand?。修復中心ではなく経験的知識の抽出を促す設問設計。 **p.43 PIR に何が含まれるか(J Paul Reed 調査)** ![[_attachments/srecon22apac-partington/page-043.png]] 修復アイテム90.5%、タイムライン85.3%、技術分析66.8%、顧客影響60.8%、組織対応58.9%、ビジネス影響56.7%。学習を直接促す要素の割合は相対的に低い。 **p.49 Safety I → Safety II** ![[_attachments/srecon22apac-partington/page-049.png]] ベル曲線で示す。Safety I は事象が「うまくいかない時」の左裾に焦点。Safety II は分布全体、とくに「うまくいっている時」(time stuff goes right)の多数領域に焦点を当てる。 ## ANZx のプロセス詳細(Part 2) 1. **インシデントの承認** — インシデント直後に「X インシデントについて今わかっていること」ミーティングを開催。 2. **Record vs Report の区別** — Incident Record(事実記録)と Incident Report(学習文書)を分離。 3. **ナラティブ** — 時系列に沿った物語として記録。因果連鎖ではなく文脈を保持。 4. **デブリーフ(デブリーフグラウンドルール)** — ブレームアウェアな前提でタイムラインをウォーク。反実仮想・「すべき」を避け、好奇心を持つよう促す(p.50)。 5. **Lessons** — 5問(上記図参照)で驚き・成功・困難・運・謎を可視化。 6. **ブレインストーミング** — 改善候補のアイデア出し(義務的アクションアイテムにしない)。 7. **提言(Recommendations)** — 義務でなく提言として記録。 ## PIR スタイルの系譜(Part 1) | スタイル | 問題点 | |---|---| | 1. (未ラベル)| テキスト抽出では項目名なし | | 2. Why×5(5なぜ)| 機械論的推論が前提、根本原因への一本道 | | 3. ブレーム型("[名前] が忘れた") | 個人への帰着、Second Victim 問題 | | 4. Causal Map | 因果マップは複雑系の多因子を示せるが作成コストが高い | | 5. Blame Aware After Action Review | ANZx が採用に近いスタイル | ## 引用・参照文献 - [[J Paul Reed]]: Maps, Context, and Tribal Knowledge(Lund 大学博士論文) - [[Richard I. Cook]]: How Complex Systems Fail - [[Sidney Dekker]]: The Field Guide to Understanding 'Human Error' / Second Victim / Just Culture - [[Jens Rasmussen]]: Risk management in a dynamic society - [[James Reason]]: Swiss Cheese Model / Human error: models and management - STELLA Report(SNAFUcatchers Workshop、2017)/ Woods' Theorem - [[Erik Hollnagel]]: From Safety-I to Safety-II: A White Paper - [[John Allspaw]]: Blameless Postmortems / The infinite how's - [[Jeli]]: Howie: The Post-Incident Guide(2021, Dr. Laura Maguire, Nora Jones, Vanessa Huerta Granda) - [[Etsy]]: Debriefing Facilitation Guide(2016, John Allspaw, Morgan Evans, Daniel Schauenberg) ## 概念・実体への接続 - [[ポストモーテム]](根本原因なし・アクションアイテムなし・MTTxなし設計) - [[人的要因]](機械論的推論への批判、Dekker's Tunnel) - [[レジリエンスエンジニアリング]](Safety I → Safety II) - [[事故モデル]](スイスチーズモデル、Rasmussen モデル) - [[Tom Partington]](登壇者) - [[ANZx]](所属組織) ## 限界・不確実点 - p.8 の PIR スタイル「1.」の内容はスライド上では表示なし(アニメーション式で口頭説明と思われる)。transcript なし。 - p.29 の画像は API により取得不可(内容不明)。前後の文脈から Blame Aware After Action Review の事例スライドと推測。 - Debrief Ground Rules(p.50)は ANZx の公式スクリプトとして引用しているが、公式文書としての URL は不明。