@2026__SREcon26Americas__Epistemology of Incident Management

# Epistemology of Incident Management ## 概要 [[Jack Kingsman]]（[[Atlassian]] シニア SRE）が SREcon26 Americas で発表した認識論的インシデント管理フレームワーク。インシデント対応における知識の獲得過程を 5 フェーズの「Incident Loop」として体系化し、各フェーズで「何を知る必要があるか」「どう知識を得るか」を系統的に解説する。Google SRE Book の Incident Loop に Atlassian の実践知を重ねた構成で、証拠分類・探索パターン・仮説基準・テスト基準の4つの認識ツールが核心である。YouTube transcript（英語自動字幕）あり。 ## 主要メッセージ - **インシデントは知識の問題**。"Incidents are all about knowledge"（p.49）——何が起きているかを理解し、何を試みるかを知り、系の境界を知ることがすべてである。 - **Incident Loop の 5 フェーズ**（p.3）: Phase 0 検知/宣言→Phase 1 生存/トリアージ→Phase 2 検査(Examination)→Phase 3 診断(Diagnosis/Hypothesis)→Phase 4 テスト/処置(Test/Treat)。各フェーズは知識の増加によって前進する。 - **証拠は 2×2 で分類する**（p.18）: 出所(direct/indirect)×状態変化(changing/stable)の 4 象限で証拠の信頼性と優先度が異なる。Direct-changing が最高信頼度、indirect-stable が最低。 - **探索は 3 パターン**（p.20–21）: Linear Search（末端から根本へ逐次探索）、Binary Search（2 分法で半分を除去）、Induced-Change（変化を誘導して証拠を生成）。 - **仮説の 3 条件**（p.30–31）: testable（テストできる）・relevant（証拠と関連がある）・specific（具体的で明確）。 - **良いテストの 6 基準**（p.41）: ①仮説に作用する、②相互排他的、③交絡要因を含まない、④効果が測定可能・可逆的、⑤リスクが管理可能、⑥最小介入。 - **3 つのボーナスコミュニケーションスキル**（p.44–48）: 待機時間へのアノテーション・勢いを持つ計画・答えを引き出す質問。 ## 視覚的に重要な図表 **p.3 Incident Loop** ![[_attachments/srecon26americas-kingsman-epistemology/page-003.png]] Google SRE Book の Incident Loop を 5 フェーズ（Phase 0–4）で再定義し、各フェーズの目標と知識獲得の観点を重ねた全体図。フレームワーク全体の地図として機能する。 **p.8 重大度マトリクス** ![[_attachments/srecon26americas-kingsman-epistemology/page-008.png]] 「何人のユーザーが影響を受けているか」×「影響の重大度」で重大度を決める判断表。Phase 0 の宣言基準として使う。 **p.14 システムとチャンク思考** ![[_attachments/srecon26americas-kingsman-epistemology/page-014.png]] Phase 2 の検査フェーズで用いる「システムを有向グラフとして考え、チャンク（コンポーネント）単位で調査する」思考法の図解。オブザーバビリティ階層（ログ→メトリクス→トレース）と組み合わせる。 **p.18 証拠 2×2 マトリクス（記入済み）** ![[_attachments/srecon26americas-kingsman-epistemology/page-018.png]] Phase 2 の中核ツール。横軸: 出所の直接性（direct/indirect）、縦軸: 変化状況（changing/stable）。実際の証拠例（ダッシュボード・ログ・エラーレート・ユーザーレポート）を 4 象限に配置した完成例。 **p.20 Linear Search（線形探索パターン）** ![[_attachments/srecon26americas-kingsman-epistemology/page-020.png]] システムの末端（ユーザー側）から根本（バックエンド）へ逐次確認する探索パターン。各コンポーネントを「正常」「異常」と判定しながら原因を特定する。 **p.21 Binary Search（2 分探索パターン）** ![[_attachments/srecon26americas-kingsman-epistemology/page-021.png]] 確認するコンポーネント数を毎回半分に絞る探索パターン。システムが深い・広い場合に Linear より効率的。 **p.23 近接性フレームワーク（Time/Space/Action）** ![[_attachments/srecon26americas-kingsman-epistemology/page-023.png]] Phase 3 の仮説生成補助ツール。「直前の変化(Time)」「障害の発生場所(Space)」「何をしたときに再現するか(Action)」の 3 軸で仮説候補を絞り込む。 **p.41 良いテストの 6 基準** ![[_attachments/srecon26americas-kingsman-epistemology/page-041.png]] Phase 4 で実施するテストが満たすべき 6 条件を箇条書きで整理したスライド。仮説検証の品質ゲートとして機能する。 ## 口頭説明・補足 YouTube 自動字幕（vHDuHBjZr6s、英語）から補足情報を抜粋する。 - **Incident Loop の出典**: SRE Book に収録された Incident Loop を出発点とし、Atlassian での実践で各フェーズを再定義。「書籍とは位置付けが異なる実装ノート」という立場を口頭で補足している。 - **Phase 1「ボートを浮かせろ」**: 口頭で "keep the boat afloat" と繰り返した。完全修復ではなく可逆的な緩和を優先し、診断への落ち着きを確保する。「修理より復旧を先に」という ordering が核心。 - **Phase 2 の証拠 2×2**: "direct evidence is something you can directly observe"（直接証拠は直接観測できるもの）、indirect は「別のものを見て推定するもの」と定義。changing（エラーレートが上昇中）は「何かが起きていることを示す」が、stable（同じエラーレートが 3 日前から）は「より深い根本原因の証拠かもしれない」と解説。 - **早期停止(stopping early)への警告**: "one of the biggest mistakes you can make is to stop looking too early"（口頭で複数回強調）。初期の説明を「十分に納得できる」と感じた段階で探索を止めてしまうことへの警告。 - **仮説の 3 条件**: testable について「テストできないなら仮説ではなくフラストレーションだ」と冗談交じりに述べた。relevant について「持っている証拠と関連している必要がある」と述べ、証拠と仮説の整合性を強調。 - **ボーナススキル 1（待機アノテーション）**: "I'm waiting for X, expecting something to happen in Y minutes" という形式。「今何もしていない」のではなく「〇〇を待っている」ことを明示することでチームの不安を除く。 - **ボーナススキル 2（勢いを持つ計画）**: "If X, then Y; otherwise Z" という条件分岐形式の計画を立て、観察と行動のトリガーを事前に決める。インシデント中に白紙から考える負荷を下げる。 - **ボーナススキル 3（答えを引き出す質問）**: "What's the current error rate on the X service?" ではなく "Can you check the current error rate on the X service and tell me if it's above N%?" という形式。Yes/No で答えられる質問より、具体的なデータを取得する行動を促す質問が望ましい。 ## 概念・実体への接続 - [[インシデント認識論]] — 本トークが提案するフレームワーク全体。5 フェーズ Loop + 4 認識ツール。 - [[インシデント管理]] — Incident Loop の標準的文脈、SRE Book との対応。 - [[仮説駆動RCA]] — Phase 3–4 の仮説基準・テスト基準が既存概念を補完。 - [[Jack Kingsman]] — 登壇者エンティティ。 - [[Atlassian]] — 所属組織エンティティ。 ## 限界・不確実点 - transcript は YouTube 英語自動字幕のため機械精度。固有名詞や技術術語の誤認識が一部含まれる可能性がある。 - 発表日は USENIX ページの"2026-03"から推定。正確な日付（SREcon26 Americas のセッション日）は未確認。 - Induced-Change 探索パターンの詳細図（p.22 相当）は本ノートに画像未収録。必要に応じて `.raw/` を参照。 - "Supervision" や "guided search" への言及が一部 transcript に見られるが、スライド画像で対応するページを特定できなかった。