インシデントストーリー - yuuk1's Digital Garden

# インシデントストーリー ## 定義インシデントストーリーとは、技術要素のみに焦点を当てた線形記述とは対照的に、豊かな社会技術的詳細(sociotechnical detail)を含む長形式のインシデント記録である。[[Courtney Nash]] が SREcon23 Americas で「浅いデータ(shallow data)」への対案として提示した概念。 4 つの特性を持つ (Source: [[@2023__SREcon23Americas__Far from the Shallows]] p.029): 1. **豊かな社会技術的詳細** — 技術要素だけでなく人間・組織・文化・感情的側面を含む 2. **複数の異なる視点** — 単一の権威ある記述ではなく、関係者それぞれの観点を伝える 3. **テーマとパターンの開示** — 個別のインシデントを超えて繰り返す構造的課題を明らかにする 4. **全体システムのズームイン/アウト** — 詳細と全体像を行き来してシステム全体の絵を描く ## 横断的知見 - 公開インシデントレポートを読んだ実践者が「自分も書ける」と感じて執筆し、それがまた他者を触発するという連鎖効果が確認されている。Laura Nolan の Slack 障害レポートが Courtney Wang (Reddit) の Wall Street Bets アンソロジーを触発した事例。(Source: [[@2023__SREcon23Americas__Far from the Shallows]]) - インシデントストーリーで初めて可視化される情報の典型例: エキスパートの退職と知識移転の失敗、システムへの感情的態度(卵の上を歩くような感覚)、暗黙のポリシー(例: "hero を避ける" 文化)。これらは定量メトリクスでは捕捉不可能。(Source: [[@2023__SREcon23Americas__Far from the Shallows]]) - Near Misses(ヒヤリハット)の詳細な記録は、表面化しなかった知識ギャップ・通信障害・メンタルモデルの不一致・文化的力を明らかにし、次の障害を予防する情報を含む。(Source: [[@2023__SREcon23Americas__Far from the Shallows]]) - Ray Ashman (Mailchimp) の証言: 予期しない障害モードが「私たちのシステムの壊れ方についてのメンタルモデルと一致しない」と気づくことで、問題認識が変容する。インシデントストーリーはこの認知的ギャップを記録する。(Source: [[@2023__SREcon23Americas__Far from the Shallows]]) - 有用なインシデントストーリーには **anomalous(異常性)**と **immutable(細部の保全)**の 2 条件が必要である(Andrew Gelman & Thomas Basbøll)。異常性は学習の入り口(Richard Cook: 「信念と経験の乖離がなければ学習は起きない」)であり、細部の保全が失われるとモラルストーリー(単純な blame 話)に退化する。Therac-25 が「競合状態」に単純化されてきた歴史はその典型例。(Source: [[@2026__SREcon26Americas__The Power of Stories]]) - 同一インシデントでも語り手のレンズが異なれば全く異なるストーリーになる。Challenger 事故は Feynman(推定誤差)、Tufte(情報可視化失敗)、Vaughan(逸脱の正常化)の三者が独立した説明を展開した。「中立・客観的なストーリー」は存在せず、複数視点の併記が理解を深める。(Source: [[@2026__SREcon26Americas__The Power of Stories]]) - 組織的インシデントストーリーテリングの場として Airbnb の「Once Upon an Incident」(四半期ごと、3 名、キャンプファイア形式、アクションアイテム不要)が実証された。古いインシデントでも参加者の関心は持続し、アクションアイテムが長く過去のものになっても学習価値は残る。(Source: [[@2026__SREcon26Americas__The Power of Stories]]) - 「豊かな物語」を単一の型として扱わず、**目的別に人物中心/因果論理中心の2種類を使い分ける**という整理が見える。[[Courtney Nash]] や [[Lorin Hochstein]] が強調する「社会技術的詳細」「複数視点」は感情・組織文化・力学を捉える人物中心の物語に近いのに対し、[[Laura de Vesine]] はインシデント対応中とポストモーテムでは Joseph Campbell 的な人物中心の「英雄の旅」を明確に退け、システムの中で出来事が因果論理で連鎖する narrative を優先すべきだと主張する。一方で de Vesine もオンコール準備の共感構築(pager stories)や Wheel of Misfortune 演習では人物中心・感情中心の物語を積極的に用いており、両者は対立ではなく「豊かな物語のどの成分(社会技術的詳細 vs. 因果連鎖)をどの場面で強調するか」という使い分けの問題として整合的に読める。(Source: [[@2023__SREcon23Americas__Far from the Shallows]], [[@2026__SREcon26Americas__The Power of Stories]], [[@2024__SREcon24Americas__Storytelling as an Incident Management Skill]]) - de Vesine が示す「対応中の協調的ストーリーテリング」は、Nash/Hochstein が扱うポストモーテム後・組織学習向けのインシデントストーリーとは異なる**適用フェーズ**(インシデント対応そのものの最中)を追加する。物語形式による思考支援は執筆時点だけでなく、進行中の意思決定支援としても機能しうることを示唆する。(Source: [[@2024__SREcon24Americas__Storytelling as an Incident Management Skill]]) ## 未解決の問い - インシデントストーリーを組織的に収集・分析するためのスケーラブルな方法論は何か？The Void のようなデータベースを小規模組織でどう実現するか？ - インシデントストーリーの「深さ」を評価する基準はあるか？何がストーリーを浅い記述から深いものへ変えるか？ - 安全心理上 blame を恐れる文化では、どうすれば豊かなストーリーを引き出せるか？ - ストーリーを語る専用の場(Once Upon an Incident 形式)とインシデントレビュー会議は、それぞれどのような組織状況に適しているか? - ストーリーテリングスキル(口頭・文章)を SRE チームで体系的に育てる方法は何か? - 因果論理中心の narrative(de Vesine)と社会技術的詳細に富む narrative(Nash/Hochstein)を、1 つのポストモーテム文書の中でどう両立・使い分けるべきか? 読者(同僚 vs. 組織全体)によって適切な比重は変わるか? ## 関連 - [[ポストモーテム]] — インシデントストーリーの代表的な実装形式 - [[インシデントレポート執筆]] — 具体的な執筆手法 - [[人的要因]] — 社会技術的詳細の核にある研究領域 - [[根本原因分析]] — 批判的対話の相手として; インシデントストーリーは RCA の単純化を補う - [[レジリエンスエンジニアリング]] — Safety Boundaries・近接ミス分析との接続 - [[インシデント考古学]] — 過去インシデントを遡る Clint Byrum (Spotify) のアプローチ(別ソース) - [[逸脱の正常化]] — Vaughan/NASA から SRE の日常的プラクティスへの接続 - [[Laura de Vesine]] — 因果論理中心の narrative とエンゲージングなポストモーテムの5段階構成 ## 出典 - [[@2023__SREcon23Americas__Far from the Shallows]] — Courtney Nash (Verica)、SREcon23 Americas 2023-03-23 - [[@2026__SREcon26Americas__The Power of Stories]] — Lorin Hochstein (Airbnb)、SREcon26 Americas - [[@2024__SREcon24Americas__Storytelling as an Incident Management Skill]] — Laura de Vesine (Datadog)、SREcon24 Americas 2024-03-20