# Epistemology of Incident Management ## 概要 [[Jack Kingsman]]([[Atlassian]] シニア SRE)が SREcon26 Americas で発表した認識論的インシデント管理フレームワーク。インシデント対応における知識の獲得過程を 5 フェーズの「Incident Loop」として体系化し、各フェーズで「何を知る必要があるか」「どう知識を得るか」を系統的に解説する。Google SRE Book の Incident Loop に Atlassian の実践知を重ねた構成で、証拠分類・探索パターン・仮説基準・テスト基準の4つの認識ツールが核心である。YouTube transcript(英語自動字幕)あり。 ## 主要メッセージ - **インシデントは知識の問題**。"Incidents are all about knowledge"(p.49)——何が起きているかを理解し、何を試みるかを知り、系の境界を知ることがすべてである。 - **Incident Loop の 5 フェーズ**(p.3): Phase 0 検知/宣言→Phase 1 生存/トリアージ→Phase 2 検査(Examination)→Phase 3 診断(Diagnosis/Hypothesis)→Phase 4 テスト/処置(Test/Treat)。各フェーズは知識の増加によって前進する。 - **証拠は 2×2 で分類する**(p.18): 出所(direct/indirect)×状態変化(changing/stable)の 4 象限で証拠の信頼性と優先度が異なる。Direct-changing が最高信頼度、indirect-stable が最低。 - **探索は 3 パターン**(p.20–21): Linear Search(末端から根本へ逐次探索)、Binary Search(2 分法で半分を除去)、Induced-Change(変化を誘導して証拠を生成)。 - **仮説の 3 条件**(p.30–31): testable(テストできる)・relevant(証拠と関連がある)・specific(具体的で明確)。 - **良いテストの 6 基準**(p.41): ①仮説に作用する、②相互排他的、③交絡要因を含まない、④効果が測定可能・可逆的、⑤リスクが管理可能、⑥最小介入。 - **3 つのボーナスコミュニケーションスキル**(p.44–48): 待機時間へのアノテーション・勢いを持つ計画・答えを引き出す質問。 ## 視覚的に重要な図表 **p.3 Incident Loop** ![[_attachments/srecon26americas-kingsman-epistemology/page-003.png]] Google SRE Book の Incident Loop を 5 フェーズ(Phase 0–4)で再定義し、各フェーズの目標と知識獲得の観点を重ねた全体図。フレームワーク全体の地図として機能する。 **p.8 重大度マトリクス** ![[_attachments/srecon26americas-kingsman-epistemology/page-008.png]] 「何人のユーザーが影響を受けているか」×「影響の重大度」で重大度を決める判断表。Phase 0 の宣言基準として使う。 **p.14 システムとチャンク思考** ![[_attachments/srecon26americas-kingsman-epistemology/page-014.png]] Phase 2 の検査フェーズで用いる「システムを有向グラフとして考え、チャンク(コンポーネント)単位で調査する」思考法の図解。オブザーバビリティ階層(ログ→メトリクス→トレース)と組み合わせる。 **p.18 証拠 2×2 マトリクス(記入済み)** ![[_attachments/srecon26americas-kingsman-epistemology/page-018.png]] Phase 2 の中核ツール。横軸: 出所の直接性(direct/indirect)、縦軸: 変化状況(changing/stable)。実際の証拠例(ダッシュボード・ログ・エラーレート・ユーザーレポート)を 4 象限に配置した完成例。 **p.20 Linear Search(線形探索パターン)** ![[_attachments/srecon26americas-kingsman-epistemology/page-020.png]] システムの末端(ユーザー側)から根本(バックエンド)へ逐次確認する探索パターン。各コンポーネントを「正常」「異常」と判定しながら原因を特定する。 **p.21 Binary Search(2 分探索パターン)** ![[_attachments/srecon26americas-kingsman-epistemology/page-021.png]] 確認するコンポーネント数を毎回半分に絞る探索パターン。システムが深い・広い場合に Linear より効率的。 **p.23 近接性フレームワーク(Time/Space/Action)** ![[_attachments/srecon26americas-kingsman-epistemology/page-023.png]] Phase 3 の仮説生成補助ツール。「直前の変化(Time)」「障害の発生場所(Space)」「何をしたときに再現するか(Action)」の 3 軸で仮説候補を絞り込む。 **p.41 良いテストの 6 基準** ![[_attachments/srecon26americas-kingsman-epistemology/page-041.png]] Phase 4 で実施するテストが満たすべき 6 条件を箇条書きで整理したスライド。仮説検証の品質ゲートとして機能する。 ## 口頭説明・補足 YouTube 自動字幕(vHDuHBjZr6s、英語)から補足情報を抜粋する。 - **Incident Loop の出典**: SRE Book に収録された Incident Loop を出発点とし、Atlassian での実践で各フェーズを再定義。「書籍とは位置付けが異なる実装ノート」という立場を口頭で補足している。 - **Phase 1「ボートを浮かせろ」**: 口頭で "keep the boat afloat" と繰り返した。完全修復ではなく可逆的な緩和を優先し、診断への落ち着きを確保する。「修理より復旧を先に」という ordering が核心。 - **Phase 2 の証拠 2×2**: "direct evidence is something you can directly observe"(直接証拠は直接観測できるもの)、indirect は「別のものを見て推定するもの」と定義。changing(エラーレートが上昇中)は「何かが起きていることを示す」が、stable(同じエラーレートが 3 日前から)は「より深い根本原因の証拠かもしれない」と解説。 - **早期停止(stopping early)への警告**: "one of the biggest mistakes you can make is to stop looking too early"(口頭で複数回強調)。初期の説明を「十分に納得できる」と感じた段階で探索を止めてしまうことへの警告。 - **仮説の 3 条件**: testable について「テストできないなら仮説ではなくフラストレーションだ」と冗談交じりに述べた。relevant について「持っている証拠と関連している必要がある」と述べ、証拠と仮説の整合性を強調。 - **ボーナススキル 1(待機アノテーション)**: "I'm waiting for X, expecting something to happen in Y minutes" という形式。「今何もしていない」のではなく「〇〇を待っている」ことを明示することでチームの不安を除く。 - **ボーナススキル 2(勢いを持つ計画)**: "If X, then Y; otherwise Z" という条件分岐形式の計画を立て、観察と行動のトリガーを事前に決める。インシデント中に白紙から考える負荷を下げる。 - **ボーナススキル 3(答えを引き出す質問)**: "What's the current error rate on the X service?" ではなく "Can you check the current error rate on the X service and tell me if it's above N%?" という形式。Yes/No で答えられる質問より、具体的なデータを取得する行動を促す質問が望ましい。 ## 概念・実体への接続 - [[インシデント認識論]] — 本トークが提案するフレームワーク全体。5 フェーズ Loop + 4 認識ツール。 - [[インシデント管理]] — Incident Loop の標準的文脈、SRE Book との対応。 - [[仮説駆動RCA]] — Phase 3–4 の仮説基準・テスト基準が既存概念を補完。 - [[Jack Kingsman]] — 登壇者エンティティ。 - [[Atlassian]] — 所属組織エンティティ。 ## 限界・不確実点 - transcript は YouTube 英語自動字幕のため機械精度。固有名詞や技術術語の誤認識が一部含まれる可能性がある。 - 発表日は USENIX ページの"2026-03"から推定。正確な日付(SREcon26 Americas のセッション日)は未確認。 - Induced-Change 探索パターンの詳細図(p.22 相当)は本ノートに画像未収録。必要に応じて `.raw/` を参照。 - "Supervision" や "guided search" への言及が一部 transcript に見られるが、スライド画像で対応するページを特定できなかった。