インシデントメトリクス - yuuk1's Digital Garden

# インシデントメトリクス Navigation: [[index]] | [[インシデント管理]] | [[グッドハートの法則]] ## 定義インシデントメトリクスとは、インシデント管理プロセスの健全さ・有効性を定量的・定性的に評価するための指標群である。インシデントは低頻度かつ複雑な社会技術的イベントであるため、単純な平均値ベースの指標(MTTR・インシデント件数など)は統計的に不堅牢であり、かつ[[グッドハートの法則]]的な逆インセンティブを誘発する。有効な指標設計には、まず「インシデント管理プロセスの成功とは何か」を目標レベルで定義し、そこから逆算して複数の視点から指標を選ぶサイクルが必要である。(Source: [[@2025__SREcon25Americas__Incident Management Metrics that Matter]]) ## なぜ MTTR・インシデント件数が機能しないか - **MTTR の統計的問題**: インシデント件数が少なく標準偏差が大きい場合、MTTR の変化のほぼすべてが統計的ノイズになる。[[Štěpán Davidovič]] が *Incident Metrics in SRE* で統計分析により明示した。(Source: [[@2021__OReilly__Incident Metrics in SRE]], [[@2025__SREcon25Americas__Incident Management Metrics that Matter]]) - **MTTR の逆インセンティブ**: MTTR を下げる最も簡単な方法は「同じインシデントを繰り返して素早く修正する」こと。深い根本原因の修正は MTTR を上昇させる。 - **インシデント件数の問題**: 「件数を減らせ」というプレッシャーは、低重大度インシデントを「スパイシーなバグ」として申告外しするインセンティブを生む。重大度指標の逆インセンティブとも連動し、本当の重大度ランクで申告することへの躊躇を増やす。 - **逆説的帰結**: インシデント管理が成熟すると、本当の修正により系は複雑になる。したがって MTTR が上昇することが「学習している」証拠でありうる。(Source: [[@2025__SREcon25Americas__Incident Management Metrics that Matter]]) ## 推奨される測定カテゴリインシデント管理プロセスを「目標ごと」に分解して指標を当てる: | 目標 | 測定例 | |---|---| | オンコールツールの健全さ | ツール操作ミス率・使いにくさ起因の誤通報数 | | オンコール持続可能性 | 深夜ページ数、シフト長、フェアネス知覚サーベイ | | インシデントが真剣に扱われる | ステートマシン完走率、自発的ポストモーテム率、IC 不在率 | | インシデント対応の質 | 役割使用率、感情分析(自信・準備感) | | 顧客コミュニケーション | 高重大度通知タイムライン、顧客フィードバック | | 事後学習と改善 | アクションアイテム速度、繰り返しインシデント率、複雑度指標 | | エグゼクティブ透明性 | サマリー閲覧数、四半期レビューフィードバック | 顧客信頼性はこのリストに含まれない——それは SLO で直接測定すべき別の問題である。 ## 横断的知見 - **VOID の実データ（1,856 件・610 組織）が示す持続時間分布は、Heroku・Google・Honeycomb・Slack・全組織の集計において一貫して右歪み**: 1〜4 時間にピークがあり 72 時間超まで長い裾を引く。Davidovič の理論的予測（標本が少なく分散が大きい → MTTR は統計的ノイズに埋もれる）を、業界横断の実分布が独立して裏付けている。(Source: [[@2022__SREcon22Americas__Tales from the VOID - The Scary Truth About Incident Metrics]], [[@2021__OReilly__Incident Metrics in SRE]]) - **持続時間と深刻度の無相関を実データで証明**: Honeycomb の公開データでは「23 時間 11 分・顧客影響ゼロ」と「21 分・Critical 顧客影響」が共存する。「長い障害ほど悪い」という直感が VOID データで否定される。John Allspaw の表現で言えば「同じ長さの 2 つの障害は、人々がどう状況を理解したかの驚きと不確実性の点で劇的に異なりうる」。(Source: [[@2022__SREcon22Americas__Tales from the VOID - The Scary Truth About Incident Metrics]]) - **[[Štěpán Davidovič]] と [[Jamie Luck]]・[[Laura de Vesine]] は「MTTR は不適切」という結論で一致するが、Davidovič が統計的論拠(分布の歪み・ノイズ比)に重点を置くのに対し、Luck/de Vesine は逆インセンティブと組織的動機付けの側面をより強調する。両方の論拠が独立して「MTTR の廃棄」を支持する。(Source: [[@2021__OReilly__Incident Metrics in SRE]], [[@2025__SREcon25Americas__Incident Management Metrics that Matter]])** - **MTTR と DORA の関係**: DORA の最新版では MTTR が削除され「bad rollout を remediate する時間」に置き換えられた。これは「デプロイ起因のロールバック時間」という測定しやすい sub-case に絞ったものであり、一般的な MTTR 批判と整合する。(Source: [[@2025__SREcon25Americas__Incident Management Metrics that Matter]]) ## 未解決の問い - 「繰り返しインシデント」の検出は現在「人間がパターンを認識する」手動作業に依存しており、LLM は不得意だとされる。どのような定式化でこれを自動化できるか。 - インシデント対応のコンピテンシー感情を survey でなく行動指標(例: IC がいつ escalate を呼ぶか)で測る方法はあるか。 - SLO とインシデント指標の間の「橋渡し」——インシデントが SLO burn rate に与えた寄与を帰属する指標設計はどうあるべきか。 ## 関連 - 上位概念: [[インシデント管理]] - 隣接概念: [[インシデント重大度評価]] / [[グッドハートの法則]] / [[サービスレベル目標]] / [[DORA]] / [[ポストモーテム]] - 関連 MOC: [[Incident Management - MOC]] / [[SRE - MOC]] - 関連 structures: [[structures/sre/Incident Management - MOC.md]] ## 出典 - [[@2022__SREcon22Americas__Tales from the VOID - The Scary Truth About Incident Metrics]] — VOID データによる MTTR・持続時間・RCA の実証的批判 - [[@2021__OReilly__Incident Metrics in SRE]] — Štěpán Davidovič による MTTR の統計的批判 - [[@2025__SREcon25Americas__Incident Management Metrics that Matter]] — Datadog の実践に基づく代替指標フレームワーク