インシデント認識論 - yuuk1's Digital Garden

# インシデント認識論 ## 定義インシデント認識論とは、インシデント対応において**「何を知る必要があるか」「どのように知識を得るか」「知識の信頼性をどう判断するか」**を体系的に扱う枠組みである。症状から根本原因へ至る知識獲得の過程を認識論的（epistemological）に分析し、各フェーズで適切な証拠収集・推論・検証の手順を与える。 [[Jack Kingsman]]（[[Atlassian]]）による SREcon26 Americas の発表が代表的なフレームワーク提案である。Google SRE Book の Incident Loop を基盤として、実践的な 4 つの認識ツール（証拠分類・探索パターン・仮説基準・テスト基準）を追加した構成をとる。 --- ## Incident Loop の 5 フェーズ Kingsman のフレームワークでは、インシデント対応を以下の 5 フェーズに分ける。フェーズは循環するループであり、診断・テストを経て再び検査に戻ることもある。 | フェーズ | 目標 | 知識の問い | |---|---|---| | **Phase 0: 検知/宣言** | インシデントの存在を確認し宣言する | 何かがおかしいか？重大度は？ | | **Phase 1: 生存/トリアージ** | 被害の拡大を止める（「ボートを浮かせる」） | どの緩和が即効性かつ可逆的か？ | | **Phase 2: 検査(Examination)** | システムの現状を観測して証拠を集める | 何が変化しており何が安定しているか？ | | **Phase 3: 診断(Diagnosis)** | 証拠から根本原因の仮説を立てる | 最も可能性の高い原因は何か？ | | **Phase 4: テスト/処置(Test/Treat)** | 仮説を検証し、確認後に修正する | 仮説は正しいか？修正後に改善するか？ | --- ## 認識ツール 1: 証拠 2×2 マトリクス（Phase 2）証拠を 2 軸で分類して収集優先度をつける。 | | **Changing（変化中）** | **Stable（安定）** | |---|---|---| | **Direct（直接）** | 最高信頼度。今起きていることを直接示す | 長期的根本原因を示す可能性が高い | | **Indirect（間接）** | 変化の徴候として有用だが解釈を要する | 最低信頼度。補足情報としてのみ使う | - **Direct** 証拠: 対象システムを直接観測したもの（エラーレート、ヘルスチェック） - **Indirect** 証拠: 別のものを見て対象を推定するもの（ユーザーレポート、関連サービスのメトリクス） - **Changing** 証拠: 今まさに変化している（エラーが増加中）→「何かが起きている」を示す - **Stable** 証拠: 変化していないが異常値を保っている→「以前から存在する深い原因」を示す可能性 --- ## 認識ツール 2: 探索パターン 3 種（Phase 2–3）原因箇所を特定するための探索戦略。システムと証拠の状況に応じて使い分ける。 ### Linear Search（線形探索）ユーザー側の末端から順に「正常 / 異常」を判定しながら根本へ進む。シンプルで理解しやすいが、コンポーネント数に比例して時間がかかる。 ### Binary Search（2 分探索）確認するコンポーネントを毎回半分に絞る。システムが深い・広い場合に効率的。「このポイントまでは正常か？」という問いを繰り返す。 ### Induced-Change（変化誘導）証拠が乏しいとき、意図的に変化（再現テスト・無効化・負荷変更）を加えて反応を観察する。証拠を能動的に生成する戦略。 --- ## 認識ツール 3: 良い仮説の 3 条件（Phase 3）仮説が「テスト可能な仮説」として機能するための最低条件。 1. **Testable（検証可能）**: 何らかのテストで真偽を確認できる形式であること。テストできないものは仮説ではなくフラストレーションである。 2. **Relevant（関連性）**: 現在収集している証拠と結びついていること。証拠と無関係な仮説は優先度を下げる。 3. **Specific（具体的）**: 十分に絞られており、どのコンポーネント・条件・状態を指しているかが明確であること。また、仮説は「これで十分もっともらしい」と感じた段階で探索を止めない——**早期停止（stopping early）は最大の誤り**とされる。 --- ## 認識ツール 4: 良いテストの 6 基準（Phase 4）仮説検証テストが満たすべき条件。品質ゲートとして機能する。 1. **仮説に作用する**: テスト結果が仮説の真偽に直接関係している。 2. **相互排他的(mutually exclusive)**: テスト結果が複数の仮説を同時に支持しない。 3. **交絡要因を含まない**: テスト中に他の変化が混入しない。 4. **効果が測定可能かつ可逆的**: 結果を数値で観測でき、元に戻せる。 5. **リスクが管理可能**: テスト自体が追加障害を引き起こすリスクが許容範囲内。 6. **最小介入**: 仮説検証に必要な最小限の変更にとどめる。 --- ## 近接性フレームワーク（仮説生成の補助）証拠から仮説候補を絞り込む補助として、以下の 3 軸で「原因に近いもの」を考える。 - **Time（時間近接）**: 直前に何が変わったか？デプロイ・設定変更・スケール操作。 - **Space（空間近接）**: 障害が特定のリージョン・サービス・インスタンスに集中しているか？ - **Action（行動近接）**: 特定の操作・リクエストタイプ・ユーザー行動と連動しているか？ --- ## 横断的知見 - Kingsman のフレームワークは、[[仮説駆動RCA]] における「仮説の停止条件」問題に対して実践レベルの回答を提供する。仮説 3 条件（testable/relevant/specific）とテスト 6 基準を組み合わせることで、「もっともらしい物語で止まる」story mode への流れを抑制する設計になっている。([[@2026__SREcon26Americas__Epistemology of Incident Management]]) - 証拠 2×2 マトリクスは、[[仮説駆動RCA]] の証拠処理ステップを「出所の直接性 × 変化状況」という 2 軸で構造化する。これは、SREGym が指摘した「最初のもっともらしい異常に固着する」問題を、証拠の優先度付けによって事前に軽減しようとするアプローチである。([[@2026__SREcon26Americas__Epistemology of Incident Management]], [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - 3 種の探索パターン（Linear/Binary/Induced-Change）は、[[インシデント調査戦略]] の調査アプローチを「状況に応じた戦略選択」として明示化したものである。Induced-Change は能動的証拠生成という観点で、仮説駆動的な調査スタイルの具体例を与える。([[@2026__SREcon26Americas__Epistemology of Incident Management]]) --- ## 未解決の問い - 証拠 2×2 マトリクスの「Indirect-changing」象限は、実際の運用ではユーザーレポートが該当することが多いが、ユーザーレポートの「量」が信頼度判断にどう影響するかは未明確。 - 3 種の探索パターンは直列的に提示されているが、実際のインシデントでは複数パターンを並行適用する場面がある。パターンの組み合わせ方についての指針は本トークでは触れられていない。 - 「良いテストの 6 基準」は実際の緊急度の高いインシデントで全条件を満たすことが難しい場合、どれを優先するかの順位付けが示されていない。 --- ## 関連 - 親: [[インシデント管理]] - 隣接概念: [[仮説駆動RCA]] / [[インシデント調査戦略]] / [[根本原因分析]] - 登壇者: [[Jack Kingsman]] / 所属: [[Atlassian]] - ソース: [[@2026__SREcon26Americas__Epistemology of Incident Management]]