# MTWTF
## 定義
MTWTF (Mean Time to WTF) は [[Nicole Forsgren]] が SREcon26 で提案した SRE 向けの北極星メトリクスである。定義は「アラートから『何が起きているか理解した』までの時間(Time from alert to 'I understand what is happening.')」。
従来の [[インシデント管理]] では MTTR(平均復旧時間)が主要指標だが、MTWTF はその上流にある **運用上の脆弱性の先行指標** として位置づけられる。AI 生成システムがますます推論困難になるにつれて、MTWTF は MTTR より先に上昇するシグナルとなる。
### なぜ重要か
- MTTR は結果指標——障害を解決して初めて計測できる。
- MTWTF は過程指標——「まだ何が起きているかわかっていない」状態の長さを計測する。
- 摩擦(認知負荷・ツール摩擦・プロセス摩擦)が MTWTF を直接悪化させる。
- オブザーバビリティ、ランブック品質、ツールの使いやすさの総合スコアとも読める。
### 計測の始め方
Forsgren は次の 3 ステップを提案する:
1. **インシデントレトロスペクティブタグ付け**: レトロテンプレートに「摩擦の寄与」フィールドを 1 つ追加(1 インシデント 5 分)。
2. **オンコールサーベイ**: 四半期に 3 問——「何があなたを遅らせたか」「何が助けになったか」「何をその場で発明したか」。
3. **トイルトラッキングスプリント**: 1 スプリント、全員が手動・反復作業を記録する(修正はしない、可視化優先)。
## 横断的知見
- **MTWTF は AI 時代の SRE 運用に特化した先行指標である**: 従来の DORA メトリクス(MTTR)は復旧時間を計測するが、AI が生成したシステムは「何が起きているかわかる」ステップ自体が困難になる。MTWTF がこの認知的な詰まりをシステム特性として計測する点で、AI 時代の運用計測の空白を埋める提案である。(Source: [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]])
- **MTWTF は [[オブザーバビリティ]] の有効性を間接的に計測する**: オブザーバビリティの 3 柱(ログ・メトリクス・トレース)の目的は「状況理解の速度を上げること」である。MTWTF が長い = オブザーバビリティが機能していない、または認知摩擦が多い、の直接的な証拠となる。(Source: [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]])
## 未解決の問い
- MTWTF の「I understand what is happening」という状態をどのように客観的に定義・記録するか(自己申告ではなく自動計測できるか)。
- MTWTF と MTTR の相関は実際どれくらい強いか——MTWTF を下げれば MTTR も下がるという因果は実証されているか。
- AI エージェントが自律的に RCA を行う [[agentic SRE]] の文脈では、MTWTF は人間の理解時間なのかエージェントの診断完了時間なのか。
## 関連
- フレームワーク: [[DORA]] / [[SPACE]]
- SRE 概念: [[SRE]] / [[インシデント管理]] / [[オブザーバビリティ]] / [[トイル]]
- 提案者: [[Nicole Forsgren]]
- 関連 MOC: [[structures/SRE - MOC]]
## 出典
- [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]] — p.23 でメトリクスを定義、p.24-25 で計測方法を提案