クロスインシデント分析 - yuuk1's Digital Garden

# クロスインシデント分析 ## 定義クロスインシデント分析（Cross-Incident Analysis）は、個別のインシデントレビューを出発点とし、**複数インシデントを横断して共通のパターン・テーマ・インサイトを発見する**実践手法である。[[ポストモーテム]] や個別インシデント学習の「次の段階」として位置づけられ、単一インシデントの振り返りでは見えない組織的・システム的な課題を浮かび上がらせる。目的はインシデントを計上・管理することでも、個別の修復アクションアイテムを作ることでもなく、**大きな組織的イニシアチブを発見し優先付ける**ことにある（Source: [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]]）。個別インシデント分析との違い: - 個別: 1 件のインシデントを深く理解する（タイムライン・多視点ナラティブ・学び） - 横断: 複数インシデントの「宇宙」から定量的・定性的なパターンを抽出する [[インシデント考古学]]（Incident Archeology、Clint Byrum / Spotify 提案）との違い: - 考古学: 過去アーティファクトへの単発または定期的な遡及調査。仮説を立て、タイムボックスで掘り返す。 - クロスインシデント分析: 個別レビューの継続的蓄積に基づく**常設・自走プログラム**。組織計画サイクルと統合する。 ## スケールに必要な3要素 [[Vanessa Huerta Granda]]（[[Enova]]）が 10 年の実践から導いた構成要素: 1. **専任チーム（集中型ローテーション）**: 個別インシデントレビューを行う担当者を分散型（各プロダクトチームが実施）ではなく、報告ラインを一本化した専任チームに集約する。プロダクト作業と優先度競合した場合に分散型では必ずレビューが後回しにされるため。 2. **構造化アーティファクト（定量＋定性の混在）**: クエリ可能な定量フィールド（タイミング・カスタマージャーニー・トリガー種別）とナラティブな定性フィールド（タイムライン文章・影響説明・判断理由・アクション選択根拠）を同一アーティファクトに持つ。数値だけでは比較不能・コンテキスト不足、ナラティブだけではクエリ不能という問題を両立して解消する。 3. **組織計画サイクルとの連動**: 四半期計画・年次計画に合わせて分析と推奨事項提示をタイミング調整する。これにより推奨事項が優先付けられ実行に移りやすくなる。Enova では月次・四半期・年次の3層ケイデンスを採用。 ## アクションアイテムと推奨事項の分離クロスインシデント分析の重要な実践として、アクションアイテムと推奨事項の性質を区別することが挙げられる: - **アクションアイテム（列1・2）**: 単一インシデント後に優先できる具体的修正。担当者が「これをやりたい」と自発的にオーナーシップを取れるもの。キャンセルも可能。 - **推奨事項（列3・4）**: 複数インシデントの横断分析後に初めて見えてくる大きな取り組み。単一インシデントの直後に優先付けするのは難しいが、繰り返し浮上すれば大きなイニシアチブとして採用できる。アクションアイテムだけを作り続ける**アクションアイテムファクトリー（anti-pattern）**は、修正が実行されず積み上がり、プログラムへの信頼を損なう（Source: [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]]）。 ## 「数値はコンテキストなしでは意味がない」 MTTR・総インシデント数などの集計値は、コンテキストなしで提示すると組織目標に転化しやすく、数値を操作する動機を生む（例: ブリップを増やして平均 MTTR を下げる）。クロスインシデント分析では常に数値とナラティブを組み合わせる「野菜とミートソース（Veggies and Meat Sauce）アプローチ」を取る: - 数値（野菜）: 傾向を示す定量指標 - コンテキスト（ミートソース）: なぜその数値になったか、何が重要かの説明 ## 横断的知見 - **部門横断の関係者招待が最重要の単一変革**: [[Enova]] での経験では、エンジニアリングだけでなくオペレーション・マーケティング・法務・コンプライアンスをインシデントレビューに招くことが、インパクト理解と組織全体のオーナーシップの確立において最も効果的だった。これは [[インシデント考古学]] の「データサイエンティストとの協働」（Byrum）とは異なるベクトルで、多様な利害関係者を「学習コミュニティ」に取り込む戦略（Source: [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]]）。 - **考古学（過去遡及）とプログラム（継続蓄積）は相補的アプローチ**: [[インシデント考古学]]（Byrum / Spotify）は既存アーティファクトへの遡及探索であり、クロスインシデント分析プログラム（Granda / Enova）は新規インシデントを継続的に蓄積・分析する枠組み。両者は組み合わせ可能であり、「まず考古学で現状把握 → プログラムを整備して継続蓄積」という順序でも機能する（Source: 両ソースの比較）。 - **「数値はコンテキストなしでは意味がない」という洞察は、2016年の Facebook 講演に約9年先行する明文化された前例がある**: Huerta Granda（2025年、[[Enova]]）の「Veggies and Meat Sauce アプローチ」（数値とナラティブの併記が必須という主張）と実質的に同じ洞察を、[[Gareth Eason]]（[[Facebook]]、[[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]]、2016年7月）がすでに明示していた。Eason は SEV 数の推移グラフに対する聴衆コメントを受け、「SEV 数を減らすことを成功指標にすると、エンジニアが SEV1 を過小分類したり報告しなくなったりするインセンティブを生む」と警告している。これは Goodhart の法則（測定対象が目標になった瞬間、それは良い指標であることをやめる）のインシデント管理領域における具体例であり、クロスインシデント分析という「継続的プログラム」の必要性が単発の警告ではなく、少なくとも10年近い実務者の反復経験に基づくことを示す。Facebook の Production Review（週次・広い招待リスト・双方向議論）自体も、Enova の3要素（専任チーム・構造化アーティファクト・組織計画サイクル連動）のうち「専任チーム」の要件は満たさないものの、他の2要素の萌芽形態と読める先行事例。(Source: [[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]], [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]]) - **Granda の3要素以前の「原始的」実践 — 専任チームなし・非構造化・単独手動集計でも contributing cause の発見自体は可能**: [[Piers Chamberlain]]（[[Xero]]、[[@2018__SREcon18Asia__You Can't Stop Fires with an Ambulance]]、2018年）は、専任チーム(1)・構造化アーティファクト(2)・組織計画サイクル連動(3)というGranda の3要素のいずれも持たない状態で、2年分・数百件の post-mortem を発表者本人が手動で横断集計し、`#release`(リリースプロセス)が `#capacity` の約4倍という最大の contributing cause であることを発見した。この「1人が非構造化データを事後に手動で読み込む」原始的なクロスインシデント分析は、Granda が2025年に提示した3要素が**なくても洞察の発見自体は可能**であることを示す一方、Chamberlain 自身は発表内で継続的な仕組み化ができていないことを暗に課題として語っている(横断集計は一回限りの取り組みとして紹介され、Enova のような月次・四半期・年次のケイデンスは存在しない)。両者を比較すると、3要素は「発見」ではなく「発見の**継続性とスケール**」を担保するための構造だと解釈できる — 発見は原始的な手法でも起こりうるが、専任チームなしでは Chamberlain のような単発の手動集計に留まり、Enova のような常設プログラムには育たない。(Source: [[@2018__SREcon18Asia__You Can't Stop Fires with an Ambulance]], [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]]) ## 未解決の問い - クロスインシデント分析の推奨事項が実際の組織改善につながったかを測る指標はどう設計するか。Granda は「人々が真剣に受け止めるようになった」と述べるが定量的エビデンスは不明。 - 4名の専任チームは何件のインシデントを年間に処理しているか。スケールの上限はどこか。 - セキュリティ・リスクインシデントを別プロセスにする判断基準（法的影響度・関係者の違い）の具体例は何か。 - クロスインシデント分析は AI エージェントや LLM ツールによって自動化できるか。定量フィールドのパターン発見は自動化しやすいが、定性フィールドのコンテキスト読み取りと推奨事項生成はどの程度可能か。 - Enova での「saves（ニアミス）」の具体的な定義基準は何か。ニアミスの取り込みがどのように分析を豊かにしたかの詳細は未公開。 - Chamberlain のような単独手動集計から Granda の3要素を備えた常設プログラムへ移行する際の中間段階（何人目から専任チーム化すべきか、非構造化データをいつ構造化アーティファクトへ切り替えるべきか）を示す実務報告はまだ見当たらない。 ## 関連 - [[ポストモーテム]] — 個別インシデント学習の基盤。クロスインシデント分析はポストモーテムを「データソース」として扱う上位プロセス - [[インシデント管理]] — インシデントライフサイクルの「学習」フェーズに位置づけられる - [[インシデント考古学]] — 過去アーティファクト遡及という異なるアプローチによる横断分析。相補的関係 - [[インシデント重大度評価]] — Severity のメトリクスゲーミング問題という共通の警告 - [[Vanessa Huerta Granda]] — 本概念の主要実践者 - [[Enova]] — 10年間の実践組織 - [[Gareth Eason]] — Facebook の Production Review における先行的な警告 - [[Piers Chamberlain]] — 専任チームなしの単独手動集計という原始的実践の事例 - [[Xero]] — Chamberlain の実践組織 ## 出典 - [[@2025__SREcon25 Americas__Learning from Incidents at Scale - Actually Doing Cross-Incident Analysis]] — SREcon25 Americas 講演（2025-03-26） - [[@2016__SREcon16__Incident Response @ FB, Facebook's SEV Process]] — SREcon16 Europe 講演（2016年7月）。メトリクスゲーミング警告の先行事例。 - [[@2018__SREcon18Asia__You Can't Stop Fires with an Ambulance]] — SREcon18 Asia 講演（2018年6月）。専任チームなしの単独手動集計の事例。