@2026__SREcon26Americas__The Power of Stories

# The Power of Stories Navigation: [[@2026__SREcon26Americas__The Power of Stories]] | [[Lorin Hochstein]] | [[インシデントストーリー]] > Source: [YouTube](https://www.youtube.com/watch?v=Nd0xfNmkgRI) / [USENIX](https://www.usenix.org/conference/srecon26americas/presentation/hochstein) > 自動字幕(en-orig)から取得したトランスクリプトを使用。固有名・数値は公式ページで確認済み。 ## 概要 [[Lorin Hochstein]](Airbnb、Staff Software Engineer, Reliability)が SREcon26 Americas のクロージングキーノートとして登壇した講演。「ストーリー」がインシデントからの学習に果たす役割を、認知科学・社会科学・看護研究の知見を交えて論じた。ストーリーは感覚知識を伝える道具であり、その有効性の条件は anomalous(異常性)と immutable(細部の不変性)の 2 点である、という主張を軸に、ポストモーテムの書き方と組織的ストーリーテリングの実践(Airbnb の「Once Upon an Incident」)を提案した。 ## 主要メッセージ ### ストーリーはなぜ重要か - ストーリーは「こんなことがなぜ起きたのか」という問いに人間が自然に求める答えである。インシデント後の sense-making ツールとして機能する。 - 箇条書きや仕様書とは異なり、ストーリーは長期記憶に残る。数千年前の物語が現在まで伝わる一方、多くのドキュメントはそうならない。 - Hochstein はソフトウェアエンジニアリングの「グランドチャレンジ」を「必要な人に必要なタイミングで情報を伝えること」と定義しており、ストーリーはその最良の手段だと述べた。 ### 代理学習とストーリー - Allspaw と Collette Alexander による SREcon26 セッションで言及された **vicarious learning(代理学習)**の概念: 直接経験が最善、次善はナラティブを通じた他者の経験の吸収。 - 看護師の熟達研究書 *From Novice to Expert*(Patricia Benner)は、具体的な事例記述(「exemplars」と呼ばれる短い事例インタビュー)を使ってスキルを伝達する方法を示した。ダッシュボードの劣化兆候を読む「まだアラートは鳴っていないが、このトレンドは危険」といった熟達スキルは、ストーリー形式でしか伝えられない。 ### 有用なストーリーの 2 条件(Gelman & Basbøll) Andrew Gelman と Thomas Basbøll の論文が提示した社会科学における有用なストーリーの条件: 1. **Anomalous(異常性)** 既存のメンタルモデルと食い違うこと。Richard Cook の "Two Years Before the Mast"(How Complex Systems Fail と同じ著者)は、学習には「現在の信念と経験のあいだの乖離」が必要だと述べている。「これは起こらないはずだ」という感覚は学習の入り口。Hochstein はこれを Javaのログキュー詰まりによるサービス停止という自身の事例で例示した。 2. **Immutable(細部の保全)** ストーリーが伝言ゲームで単純化されると、学習できる本質が失われる。例示: Therac-25 事故は「競合状態(race condition)」として一般に知られているが、Leveson & Turner の論文(1990s)はオペレータ UX の問題(malfunction コードの曖昧さ、誤りを proceed ボタンで握りつぶす設計)や、ハードウェアインターロックが削除されていた事実など複合的原因を記録している。単純化は複合原因の理解を妨げる。 ### インシデントストーリーの 3 類型 - **ホラーストーリー**: 予期しない連鎖が起きる劇的展開。Hochstein 自身の事例(フェイルオーバー後に問題が「移動した」と思ったが、実はデプロイパイプラインが後追いで次のリージョンに展開していた)。最も学習価値が高い。 - **ミステリー**: 「何も変えていないのにこうなった」型。インシデントの大半はミステリー。 - **モラルストーリー(Morality Tale)**: 「テストが失敗したのに本番に進めた担当者」のような oversimplified な話。責任を単一の人物に帰着させる構造は、異常性も細部も失っており有害。 ### セカンドストーリー - レジリエンスエンジニアリングから来る概念: 最初に語られる「ファーストストーリー」(単純・即時)と、調査を経て得られる「セカンドストーリー」(複雑・文脈豊富)の区別。 - Richard Cook、David Woods、Charlotte Miller による 1990 年代の patient safety ワークショップレポートで整理された。 - インシデントも同様: 直後の「新入りがミスをした」は first story、深掘りすると前提となったシステム状態・組織プレッシャー・設計上の問題が現れる second story へ移行する。 ### Challenger から学ぶ「語り手による違い」同じ事象でも、語り手によって全く異なるストーリーになる典型例として Challenger 災害: - **Feynman(物理学者)**: 推定誤差のストーリー。マネジャーとエンジニアのリスク認識に桁違いの差があった。 - **Tufte(情報可視化研究者)**: 情報可視化失敗のストーリー。O リングの温度依存性を示すグラフの設計が悪く、誤った判断につながった(*Visual Explanations*)。 - **Vaughan(社会学者)**: 逸脱の正常化(normalization of deviance)のストーリー。許容範囲を少しずつ広げる NASA の文化・組織プロセスが判断を歪めた。「中立・客観的な事実の語り」は存在しない。ストーリーは常に特定のレンズを通している。 ### 逸脱の正常化と SRE Diane Vaughan が Challenger 研究で提唱した **normalization of deviance** は SRE にも常在する: > ノイジーなアラートの閾値を緩和する行為——「0.2% エラーレートが限界だったが、実際は 0.5% でも健全だとわかったので上げた」——それ自体が逸脱の正常化である。この行為は合理的・日常的だが、徐々に「本当の限界」の感覚が失われるリスクをはらむ。 ### ポストモーテムをストーリーとして書く - テンプレートで最重要なセクション: **narrative description**。それ以外のセクションは読まれるかもしれないし、読まれないかもしれない。 - ポイント: 1. **時系列で書く**: ジャンプを避け、「インパクトが起きた理由」と「インパクト」を混ぜない。 2. **インシデント開始より前から始める**: インシデントの種は数ヶ月〜数年前に蒔かれていることがある。 3. **エピソードに区切る(chunk)**: 未分化の時系列リストは読みにくい。意味のある区切りに小見出しを付ける。 4. **複数チームが並行していた場合も書く**: 前後にジャンプしても良い。構造化することで読者の理解を助ける。 - インシデントレビュー会議はアクションアイテム議論に占拠されがちなため、別途ストーリーテリング専用の場を設けることを推奨。 ### Once Upon an Incident(Airbnb の実践) - Airbnb が実施する四半期ごとのインシデントストーリーテリングセッション。 - 毎回 3 名の語り手、古いインシデントでも可、アクションアイテムへの圧力なし。 - 「キャンプファイアを囲む」スタイル。Nick Lach が Twitter(現 X)から持ち込んだ。 - 参加者も多く、過去のインシデントから今も学べることが実証されている。 ### 参考書籍 - *Storycraft* by Jack Hart — ナラティブノンフィクションの執筆技法(The Oregonian 長文記事編集長) - *Storyworthy* by Matthew Dicks — 口頭ストーリーテリングの練習法(ストーリーテリング競技者) ## 口頭説明・補足 - 開幕の「家族が誰も起きなかった」エピソードは、講演全体の主題の縮図: 日常ルーティンの変更が見えないカップリングを断ち、予期しないインシデントを起こした。ルーティンが機能していた理由を誰も知らなかった。 - Richard Cook の "Two Years Before the Mast" はオンラインで見つけにくいと言及。 - Kahneman の締め言葉は講演を聴いた記者インタビューからの引用: 「数字で意思決定をした人は一人もいない。ストーリーが必要なのだ」(Transcript [34:31])。 ## 概念・実体への接続 - [[インシデントストーリー]] — 本講演の中心概念 - [[逸脱の正常化]] — Vaughan/NASA の研究から、SRE の日常作業に接続 - [[ポストモーテム]] — narrative description の実践 - [[インシデントレポート執筆]] — 時系列・チャンク・開始タイミングのアドバイス - [[人的要因]] — 複合原因・ブラインドスポット・組織文化 - [[Lorin Hochstein]] — 登壇者 - [[Airbnb]] — Once Upon an Incident の実施組織 ## 限界・不確実点 - 動画フレームなし(YouTube からの代表フレーム取得不可)。スライドの視覚情報は未確認。 - 自動字幕由来のため、固有名詞(Basbøll、Gelman 等)のスペルは公式ページ・論文タイトルで確認が必要。 - Gelman & Basbøll の論文タイトルは transcript に完全には現れず未確認。 - Patricia Benner の本のタイトル(*From Novice to Expert*)は transcript から確認。 - Cook の "Two Years Before the Mast" は論文の正確なタイトルが transcript で言及されたが、検索での発見難易度は Hochstein 自身が言及。