@2018__SREcon18 Americas__Architecting a Technical Post Mortem

# Architecting a Technical Post Mortem Navigation: [[@2018__SREcon18 Americas__Architecting a Technical Post Mortem]] | [[ポストモーテム]] | [[根本原因分析]] ## 概要 [[Will Gallego]](Systems Engineer, [[Etsy]])が SREcon18 Americas（2018-03-29）で発表した 40 分の講演。Etsy で 6 年以上・数十件のポストモーテムを進行してきた実践者が、ポストモーテムを「修復リスト作成」ではなく「学習文化の実践」として再定義し、哲学的根拠・構造的実践・ファシリテーション技術を体系化した。講演スライドは 33 枚、動画は YouTube で公開（`UlIfDdoK6EQ`）。 ## 主要メッセージ - **ポストモーテムは修復のためでなく、学習のためにある**。定義から「再発防止の保証」「修復項目」を意図的に外している(p.8–9)。 - **「ブレームレス」より「ブレーム・アウェア（非難認識）」**。「非難なし」は責任の否定と誤解されやすく、必要なデータポイントの隠蔽を招く。バイアスは存在することを認めつつ、非難的な形では表出させない(p.7)。 - **「根本原因」は誤った概念**。イベントはほぼ必ず複数の要因が絡み、「根本原因を見つけた」と言うことは「浅い答えで満足する」宣言に等しい(p.22)。 - **ファシリテーターはシステムの専門知識を必要としない**。核心の仕事は「参加者が互いに語り合える場を開く」こと(p.20)。 - **ローカル合理性の原則**: 誰もシステムを壊したくて出勤しない。その時点の情報で最良と信じた行動を取っている(p.25)。 ## 視覚的に重要な図表 **p.8 ポストモーテムの定義** ![[_attachments/srecon18americas-gallego/page-008.png]] Gallego が提示する定義: "The application of a learning culture through shared discussion of our beliefs on what transpired over an agreed upon limited number of events." 修復・再発防止への言及を意図的に排除し、「学習文化の適用」を核心に置く。 **p.13 Woods' Theorem（Stella Report）** ![[_attachments/srecon18americas-gallego/page-013.png]] "As the complexity of a system increases, the accuracy of any single agent's own model of that system decreases rapidly." — Stella Report（IBM・Etsy・IEX・Ohio State の SNAFU Catchers' Consortium による複数障害の共同調査）。システムが複雑化するほど、誰もシステム全体を正確にモデル化できなくなる——これが「記憶は常に不完全」「根本原因は単一でない」の理論的根拠となる。 **p.19 タイムボクシング構造** ![[_attachments/srecon18americas-gallego/page-019.png]] PM 1 時間の配分: 5 分イントロ(初参加者への説明・出席目的) → 35–40 分タイムライン → 10 分 Q&A → 残り時間修復策（必要な場合のみ）。修復策は最後に「残り時間」扱いであることが明示的。 **p.22 根本原因は誤った概念** ![[_attachments/srecon18americas-gallego/page-022.png]] "Root Cause is a Fallacy"——根本原因・主要原因などの用語を PM で使わないことを強く推奨。成功にも「根本原因」はない。失敗も同じ多因子構造である。 **p.28 PM はバブルの中に閉じない** ![[_attachments/srecon18americas-gallego/page-028.png]] "Post Mortems are not a bubble." ブレーム・アウェアの姿勢は PM の場限定で着脱するものでなく、日常の文化として実践されなければ PM 自体も機能しない。同僚が PM 外で率直になれないなら、PM でも率直にはなれない。 ## 哲学的背景 Gallego は講演全体を通じて、ポストモーテムを技術ツールではなく**人間の認知の限界と組織の学習メカニズム**の問題として捉える。 - **固定マインドセット vs 成長マインドセット**: 「不適切な人を排除すれば問題が解決する」固定マインドセットはポストモーテム文化の基盤と相容れない(p.11)。 - **記憶の不完全性**: 人はイベントの全貌を知ることができず、記憶は「粗い縁」を滑らかにして主観的な世界観に合わせる。PM でも完全な再現は不可能(p.12)。 - **合意された有限範囲**: 定義の "over an agreed upon limited number of events" は、PM で扱えるスコープの有限性——人の注意・記憶・システム理解——を明示している(p.14)。 ## 実践的構造 ### ファシリテーション - ファシリテーターはノートテイカーと別人にする(両立困難)。 - 共同ファシリテーターやシャドーファシリテーター(訓練中)の活用。 - **オープン招待**: 主要関係者に加え、好奇心のある誰でも参加可。自分が関与していた場合は（無意識バイアスを避けるため）ファシリテーションしない。 ### タイムライン - アクター(当事者)がチャットログ・グラフ・アラートなどを使いながら物語る形で進行。 - **インシデントから 2 週間以内に実施**（1 週間が望ましい）。2 週間超では参加者の関心が薄れ、詳細が平滑化される。 ### 深掘り技法（Looking Deeper）ファシリテーターの最重要スキル(p.21): - 行動前の前提仮説がどう変化したか - その行動が「正しい判断」と信じられていた理由 - 人・文書・アラート・グラフのどれが情報源だったか - 専門知識者が「常識」として語らないことを言語化させる ### 反事実の回避「もし~していれば」「~すべきだった」「~できたはずだ」「~に失敗した」はすべてヒンドサイトバイアスの表出(p.23)。後知恵で架空の世界を描き、実際に何が起きたかの理解に寄与しない。 ## 主要引用 - **Woods' Theorem（Stella Report）**: "As the complexity of a system increases, the accuracy of any single agent's own model of that system decreases rapidly." - **Morgan Evans**: "You will undoubtedly fall into biases. This is natural. You're not trying to stop them, just call them out in a non-shameful way." - **テイクアウェイ**: "Systems Fail. Constantly. Failure is absolutely an option in tech. It's our ability to adapt to these failures that makes them tolerable and manageable." ## 概念・実体への接続 - [[ポストモーテム]] — 本ソースは既存概念ページを複数の観点から拡張する（ブレーム・アウェア・定義の再定式化・根本原因否定・ローカル合理性・修復的正義） - [[根本原因分析]] — "Root Cause is a Fallacy" は RCA 概念への正面からの批判 - [[インシデント管理]] — ポストモーテムを IL の最終「学習」段として位置づけ - [[Will Gallego]] — 登壇者 - [[Etsy]] — Gallego の所属。SNAFU Catchers' Consortium の構成機関 ## 限界・不確実点 - 動画（YouTube `UlIfDdoK6EQ`）は取得していない。transcript なし。一部の口頭説明（特に冒頭のストーリー詳細・Q&A）はスライドノートで補完。 - SNAFU Catchers' Consortium の Stella Report (`http://stella.report` - p.13) の詳細は本 PDF に含まれていない。 - p.29 の Morgan Evans の引用の文脈（氏の所属・発言の出所）は不明。