[Incident Metrics in SRE - Google - Site Reliability Engineering](https://sre.google/resources/practices-and-processes/incident-metrics-in-sre/)
PDF: [https://static.googleusercontent.com/media/sre.google/en//static/pdf/incident_metrics_in_sre.pdf](https://static.googleusercontent.com/media/sre.google/en//static/pdf/incident_metrics_in_sre.pdf)
[[notes/sre/SRE]]における適切なインシデントメトリクスについてのGoogleのレポート。
> プロセス変更、製品購入、技術変更に伴う改善点を測定することは一般的に行われている。信頼性エンジニアリングでは,平均復旧時間 ([[MTTR]]) や平均緩和時間 (MTTM) などの統計値を測定することが多い。これらの統計は,改善の評価や傾向の把握に用いられることもある。
> このレポートでは,単純なモンテカルロシミュレーションプロセス(他の多くの状況にも適用可能)と統計分析を用いて,これらの統計が生産事故の文脈での意思決定や傾向分析にはあまり適していないことを実証しています.これらに代わるものとして、いくつかのコンテキストで同じ測定値を得るためのより良い方法を提案します。
- [[MTTR]]は[[SLI]]に不向き