# Move Past Incident Response to Reliability [[Will Larson]]([[Calm]] CTO)が GitHub ReadME Project に寄稿した記事。インシデント対応の標準プロセス(アラート→ページ→緩和→報告書→レビュー)を超えて、信頼性を体系的に向上させるためのフレームワークを提示する。 ## 要点 ### 三段の投資バランス Larson はインシデントライフサイクルを**対応(Response)・分析(Analysis)・修復(Remediation)**の三段に分け、いずれかに偏らず投資をバランスすることを主張する。多くの組織は対応プロセスの精緻化に閉じがちだが、真の信頼性改善は**修復(コードやアーキテクチャの実質的な修正)**が担う。 ### インシデント分析への進化 対応から分析へ移行するための具体策: - MTTD(検知時間)と MTTM(緩和時間)のメトリクス追跡 - インシデントメタデータの一元管理 - 共通原因を持つ関連インシデントの**バッチレビュー** ### システムモデリング 変更 → 潜在インシデント → 発見されたインシデント → 緩和 → 修復のサイクルモデルを提示。各段階がフィードバックループを形成し、ボトルネックの診断に使える。 ### インシデント法律主義(Incident Legalism) プロセスが信頼性でなくコンプライアンスに焦点を移す病理パターン。特徴: - 繰り返しのレビュー質問 - 過度な重篤度分類の議論 - メタデータ収集への過度の注力 - 実行不可能な修復提案 > [!key-insight] 「もっと頑張る」(手続きを増やす)では信頼性は改善しない > システム的な問題を戦略的に診断することが、手続き的な複雑さの増加より重要である。ポストモーテムの数を増やしてもアクションアイテムの実行率が上がらなければ意味がない。 ## 既存 wiki との接続 - [[インシデント管理]] が整理するインシデントライフサイクル(検知→トリアージ→診断→緩和)に対し、本記事は「緩和の先にある修復」の投資不足を問題提起する - [[ポストモーテム]] のプロセス設計に対し、Incident Legalism は「ポストモーテムが形骸化するメカニズム」の一つの名前を与える - [[@2022__ISSRE__Going through the Life Cycle of Faults in Clouds - Guidelines on Fault Handling]] の TTM/TTR 実測値と、Larson の「修復フェーズへの投資不足」は整合する——TTR の 53% を緩和が占め、修復まで平均 9 時間以上を要する