@2023__SREcon23Americas__Far from the Shallows

# Far from the Shallows: What We Can Learn From Deeper Incident Stories Navigation: [[index]] | [[@2023__SREcon23Americas__Far from the Shallows|このページ]] ## 概要 [[Courtney Nash]]（[[Verica]]、Internet Incident Librarian）が SREcon23 Americas（2023-03-23）で発表。海を渡る旅の比喩を軸に、インシデント分析における「浅いデータ(shallow data)」の限界を統計的・質的に検証し、より深いインシデントストーリーから得られる価値を論じる。「The Void」と呼ばれる 1 万件超の公開インシデントレポートのデータベースを出典として、Duration・MTTR・Severity・Root Cause という慣習的指標の問題点を体系的に批判したうえで、代替としてインシデントストーリーと Rasmussen の Safety Boundaries モデルを提示する。 ## 主要メッセージ **浅瀬の問題(The Usual Shallow Subjects)** 「shallow data」は John Allspaw が命名した概念で、インシデントの詳細を覆い隠しつつ根拠なき確実性の幻想を与えるデータを指す。 - **Duration / MTTR**: インシデントのデータは左歪み分布を示し、企業をまたいで一貫して正規分布にならない。平均(MTTR)は統計的に無意味。「システムの信頼性」「チームの俊敏性」「改善度」「次回の予測」「重大度」のいずれも MTTR から読めない（p.010） - **Severity**: 顧客影響・修正コスト・緊急度の変数プロキシ。自動化されることも主観的に割り当てられることもあり、企業ごとに定義が異なる。Allspaw いわく「評点のようなもの—それがいかに過度な単純化かを示す」。Severity と Duration は相関しない（p.021 グラフ） - **Root Cause**: 複雑システムの因果を単純化し、上流/その他のシステム要因を見逃す。人間の判断と行動に過剰索引付けする。Sidney Dekker: 「因果性は構築される(causality is constructed)」 ## 視覚的に重要な図表 **p.001 タイトルスライド — The Sea of Incidents** ![[_attachments/srecon23amer-nash-far-from-shallows/page-001.png]] 海と氷山のイラスト。表面(浅瀬)に Duration・MTTR・Severity・Root Cause、深部に Rich Stories・Safety Boundaries・Near Misses が配置される。 **p.004 The Usual Shallow Subjects** ![[_attachments/srecon23amer-nash-far-from-shallows/page-004.png]] Duration・MTTR・Severity・Root Cause の 4 項目を並べた概観スライド。右に Allspaw の著書(Etsy blog)が添えられる。 **p.010 MTTR Can't Tell You** ![[_attachments/srecon23amer-nash-far-from-shallows/page-010.png]] MTTR が答えられない 5 つの問い。「システムの信頼性」「チームの俊敏性と効果」「インシデント対応の改善度」「次回の長さ」「任意のインシデントの深刻さ」。右バブル: "Moving away from MTTR"。 **p.013 Severity Is Negotiable** ![[_attachments/srecon23amer-nash-far-from-shallows/page-013.png]] Severity の構成要素(顧客影響・修正コスト・緊急度・自動/手動・主観的割り当て)を列挙。右バブル: "A Coping Strategy?", "Sev1 or Sev2?", "Related to duration?"。 **p.021 Severity & Duration Aren't correlated** ![[_attachments/srecon23amer-nash-far-from-shallows/page-021.png]] 複数企業の Severity 別インシデント Duration を色別棒グラフで比較。Sev レベルと Duration の間に一貫した相関がないことを示す。 **p.029 Incident Stories** ![[_attachments/srecon23amer-nash-far-from-shallows/page-029.png]] インシデントストーリーの 4 特性: ①豊かな社会技術的詳細(技術要素だけの線形記述との対比)、②複数の異なる視点、③テーマとパターンの開示、④全体システムの状況を描くズームイン/アウト。右バブル: Convey Memory, Clarify Roles People Play, Uncover themes and patterns, Reveal Systems Perspectives。 **p.047 Safety Boundaries (Rasmussen 1997)** ![[_attachments/srecon23amer-nash-far-from-shallows/page-047.png]] 3境界モデル: 上=経済的失敗境界(ECONOMIC FAILURE BOUNDARY)、下=許容できないワークロード境界(UNACCEPTABLE WORKLOAD BOUNDARY)、右=許容パフォーマンス境界(ACCEPTABLE PERFORMANCE BOUNDARY)。中央の "Operating point" が動的に動く。右バブル: "Operating Point is Dynamic", "People Discover & Adapt to Success"。 **p.064 Near Misses Reveal** ![[_attachments/srecon23amer-nash-far-from-shallows/page-064.png]] Near Misses が明らかにする 6 項目: 現在の知識のギャップ、通信障害、専門知識の偏り(pockets of expertise)、不一致したメンタルモデル、文化的・政治的力、システムに関する前提の範囲。右バブル: Pockets of Expertise, Assumptions/Mental Models/Forces。 **p.073 This Is Hard Work** ![[_attachments/srecon23amer-nash-far-from-shallows/page-073.png]] 締めくくりスライド: 共に①実践コミュニティの構築、②この作業の重要性に光を当てること、③支援・教育・互いへのケア。右バブル: A Rising Tide, Safer Together, A Refuge。 ## 口頭説明・補足 transcript (YouTube 自動字幕)より。 **MTTR の境界問題**: Clint Byrum (Spotify) が「緩和されたが、システムはまだ通常水準に戻っていない状態を回復とみなすか」という問いを提起。Duration の境界定義自体が曖昧であることを指摘。 **Severity の社会的側面**: John Allspaw が Severity を「評点(ratings)のようなもの—関心があるのはどう変化するかだ—それがいかに過度な単純化か」と述べ、Severity が測定値ではなく社交的な調整物であることを示した。Anonymous エンジニアの証言: 「重大度の実践は部署ごとに少し違っていた」。 **インシデントストーリーの伝播効果**: Courtney Wang (Reddit) が Wall Street Bets / GameStop インシデントのアンソロジーを書いた動機が Laura Nolan の Slack 障害報告を読んで触発されたものだと述べ、公開することで他の人も「私にもこんなストーリーが書けるかもしれない」と思えるようになる連鎖効果を指摘。 **Kafka 事例 (Liz Fong-Jones・Fred Hebert / Honeycomb)**: 1 人の Kafka エキスパートが退職し、知識移転が不完全になったことで一連のインシデントが発生。「人々がシステムに対して感じる気持ち—システムの卵の上を歩いているような感覚—は定量的に計測できず、インシデントストーリーでのみ伝わる」。 **Safety Boundaries の詳細説明**: Rasmussen 1997 の図を Nash が詳細解説。Operating point がどこにあるか、境界に近いか遠いかは、実際には分からない。「思っているだけで、知らない」。特に許容パフォーマンス境界付近に operating point を近づけようとする業界の慣行(できる限りシステムを限界まで使う)の危険性。 **Mailchimp 事例 (Ray Ashman)**: ジョブシステムの障害で「コンピュータは簡単な部分だった」と述べる。「これは私たちのジョブシステムの壊れ方に関するメンタルモデルと一致しない障害モードだと気づいた。この組織的記憶は**文化的・歴史的な力**であり、問題とその解決策の見方を形成している」。 ## Q&A （transcript に記録なし） ## 概念・実体への接続 - **[[インシデントストーリー]]** — このトークの中心概念。浅いデータへの対案として提示 - **[[インシデント重大度評価]]** — Severity の限界を統計的・質的に分析 - **[[根本原因分析]]** — Root Cause の問題点と代替的思考法 - **[[レジリエンスエンジニアリング]]** — Rasmussen の Safety Boundaries、Allspaw の Adaptive Capacity Labs - **[[ポストモーテム]]** — インシデントストーリーという深い調査の形式 - **[[人的要因]]** — 感情・役割・組織記憶・文化的力の重要性 - **[[Jens Rasmussen]]** — Safety Boundaries 図の提唱者(1997) - **[[John Allspaw]]** — "shallow data" の命名者 - **[[Sidney Dekker]]** — 因果性の構築性を論じる - **[[複雑システム障害論]]** — near misses・safety boundaries・operating point ## 限界・不確実点 - スライド PDF 未取得(USENIX ログイン必須)。79 フレームは YouTube 動画(ID: qqsq81u7WD8, 30 秒間隔)から抽出。一部のスライドはフレーム間で遷移中のため最鮮明ではない。 - transcript は YouTube 自動字幕(英語)であり機械精度。固有名詞や引用の細部は映像フレームで確認できる範囲で補正した。 - 「The Void」データベース内の各社ヒストグラム(Duration 分布比較 gif)はアニメーション GIF でスライドに埋め込まれており、静止フレームでは確認不能。 - p.021 の Severity-Duration 相関グラフの凡例(色分けの企業名)は解像度上読み取れず。