[Analyzing Incident Data across Organizations: Courtney Nash on the VOID](https://www.infoq.com/articles/analyzing-incident-data/)
[Verica - Courtney Nash on the VOID: An Interview by InfoQ](https://www.verica.io/blog/courtney-nash-on-the-void-an-interview-by-infoq/) ([[Verica]])
- 599組織の1,818レポート
- The VOIDで追跡したインシデントの半数以上は、2時間以内に外部で解決しています。
- [[Incident Metrics in SRE]]の調査結果と一致
- Duration in this context is calculated as the time from detection to the time that the organization considered the incident to be externally resolved or remediated. Of that subset of reports with duration data, over half (53%) indicated that the incident was externally resolved in under two hours.
- [[MTTR]](および関連するすべてのインシデントの平均ベースの測定値)は、インシデントの継続時間で発生する正偏差のデータのため、信頼性が低い場合があります。また、誤解を招くだけでなく、インシデントの研究の複雑さを過度に単純化する可能性があります。
- MTT*データの代わりに、[[SLO]]または[[インシデントの調整コスト|Cost of Coordination]]データを使用することが推奨されます。
- インシデントの根本原因を報告することは、分析と組織に悪影響を及ぼす可能性があります。インシデントは非常に複雑であり、単一の原因に還元されることはほとんどありません。
> 報告書の約25%だけがRCAを利用
> Sidney Dekkerはさらに詳しく、「『ヒューマンエラー』の問題は、結局のところ、組織の問題である」
- データベースにはニアミス報告がほとんど含まれていませんが、これらの報告はサービス復旧のプレッシャーがないため、より深い洞察が得られることがよくあります。
適応能力に対する貢献要因
- インシデントを自社システムに関する学習の機会として扱う
- システムの安全性の境界を理解することを優先する。
- その境界を最もよく理解し、その境界をシステムがどのように変化させるかを理解する人材に投資する。
![[Pasted image 20220706063316.png]]