# MTWTF ## 定義 MTWTF (Mean Time to WTF) は [[Nicole Forsgren]] が SREcon26 で提案した SRE 向けの北極星メトリクスである。定義は「アラートから『何が起きているか理解した』までの時間(Time from alert to 'I understand what is happening.')」。 従来の [[インシデント管理]] では MTTR(平均復旧時間)が主要指標だが、MTWTF はその上流にある **運用上の脆弱性の先行指標** として位置づけられる。AI 生成システムがますます推論困難になるにつれて、MTWTF は MTTR より先に上昇するシグナルとなる。 ### なぜ重要か - MTTR は結果指標——障害を解決して初めて計測できる。 - MTWTF は過程指標——「まだ何が起きているかわかっていない」状態の長さを計測する。 - 摩擦(認知負荷・ツール摩擦・プロセス摩擦)が MTWTF を直接悪化させる。 - オブザーバビリティ、ランブック品質、ツールの使いやすさの総合スコアとも読める。 ### 計測の始め方 Forsgren は次の 3 ステップを提案する: 1. **インシデントレトロスペクティブタグ付け**: レトロテンプレートに「摩擦の寄与」フィールドを 1 つ追加(1 インシデント 5 分)。 2. **オンコールサーベイ**: 四半期に 3 問——「何があなたを遅らせたか」「何が助けになったか」「何をその場で発明したか」。 3. **トイルトラッキングスプリント**: 1 スプリント、全員が手動・反復作業を記録する(修正はしない、可視化優先)。 ## 横断的知見 - **MTWTF は AI 時代の SRE 運用に特化した先行指標である**: 従来の DORA メトリクス(MTTR)は復旧時間を計測するが、AI が生成したシステムは「何が起きているかわかる」ステップ自体が困難になる。MTWTF がこの認知的な詰まりをシステム特性として計測する点で、AI 時代の運用計測の空白を埋める提案である。(Source: [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]]) - **MTWTF は [[オブザーバビリティ]] の有効性を間接的に計測する**: オブザーバビリティの 3 柱(ログ・メトリクス・トレース)の目的は「状況理解の速度を上げること」である。MTWTF が長い = オブザーバビリティが機能していない、または認知摩擦が多い、の直接的な証拠となる。(Source: [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]]) ## 未解決の問い - MTWTF の「I understand what is happening」という状態をどのように客観的に定義・記録するか(自己申告ではなく自動計測できるか)。 - MTWTF と MTTR の相関は実際どれくらい強いか——MTWTF を下げれば MTTR も下がるという因果は実証されているか。 - AI エージェントが自律的に RCA を行う [[agentic SRE]] の文脈では、MTWTF は人間の理解時間なのかエージェントの診断完了時間なのか。 ## 関連 - フレームワーク: [[DORA]] / [[SPACE]] - SRE 概念: [[SRE]] / [[インシデント管理]] / [[オブザーバビリティ]] / [[トイル]] - 提案者: [[Nicole Forsgren]] - 関連 MOC: [[structures/SRE - MOC]] ## 出典 - [[@2026__SREcon26 Americas__The WTF Problem - Developer Experience as a Reliability Property]] — p.23 でメトリクスを定義、p.24-25 で計測方法を提案