# ポストモーテムと事後分析——文献横断の統合ナラティブ 大規模分散システムは本質的に危険であり、障害を完全に排除することはできない。Cook (1998) は 18 の命題でこの構造を定式化し、複雑システムが**潜在的障害の混合を常に内包しながら劣化モードで稼働する**ことを指摘した (Source: [[複雑システム障害論]])。では、排除できない障害からどうやって組織は学ぶのか——この問いに対する実践的な解がポストモーテム(事後振り返り)である。 ## 1. 障害の構造的持続性 障害データの定量分析は Gray (1986) の Tandem システム研究に始まり、Oppenheimer et al. (2003) がインターネットサービスに拡張した。いずれもオペレータエラーが最大の障害カテゴリであり、とりわけ設定ミスが主体であるという知見を示した (Source: [[運用障害分析]])。この「人間起因の障害が全体の3〜4割を占める」という構造的パターンは、20年後の Microsoft Teams 152件分析(Ghosh et al., SoCC 2022)でも非コード系根本原因が60%を占めるという形で再確認され、さらに Li et al. (ISSRE 2022) が AWS・Azure・Google Cloud の354件のポストモーテムを横断分析した結果、設定ミスが内部原因の筆頭(31.6%)であることを示した。技術世代とアーキテクチャを超えて持続するこの構造は、障害を「例外的事象」ではなく「運用の恒常的産物」として扱う枠組みの必要性を根拠づける。 ## 2. ブレームレスポストモーテムの確立と深化 Google SRE Book (2016) は、個人でなくシステムの欠陥に焦点を当てる「ブレームレスポストモーテム」を業界標準として確立した。ブレームレス文化・構造化プロセス・ツーリングの三つの柱は、PagerDuty・Datadog・mixi・はてなといった組織で異なる形に具現化された (Source: [[ポストモーテム]])。しかし、ブレームレスという表現そのものが「責任の否定」と誤解され、必要な情報の隠蔽を招くという実践上の問題も浮上した。Gallego (Etsy, SREcon 2018) は「ブレーム・アウェア」——非難感情の存在を認めつつ、それを指差しの形で表出させない——という概念を提唱し、さらに修復的正義の枠組みをポストモーテムに適用することで、ブレームレス文化の理論的基盤を深化させた。 これと並行して、ポストモーテムのファシリテーション技法も言語学に基礎を置く形で体系化された。Eckhardt (Heroku, SREcon 2019) は implication・presupposition 理論を応用し、「Why/You」を「How/What」に変換する規律を示した。Lund (Microsoft, SREcon 2019) はデブリーフィング前の個別インタビューがグループダイナミクスの歪みを防ぐことを実演した。複数のソースが「問いの文法構造そのものが学習の深さを規定する」という観察で三者収束を形成している。 ## 3.「修復」から「学習」へのパラダイムシフト ポストモーテム研究の最も重要な収束点は、**ポストモーテムの目標を「修復の保証」から「学習と選択肢の蓄積」に転換すべきだ**という主張にある。Gallego (2018) はポストモーテムの定義から修復項目を意図的に外した。Lund (2019) は「この会議の目標はこのインシデントを二度と起こさないことではない、学ぶことだ」と宣言し、アクションアイテムがゼロで終わっても価値ある議論であると述べた。Ruppe (Jeli.io, SREcon 2022) は「Repeat Incident Fallacy」——CI/CD の継続的変化ゆえに同じインシデントは二度と起きないため、「再発防止」の誓約そのものが誤った前提に立つ——を論じ、代わりに "Insights from the Past = Options in the Future" を目標定式として提案した。そして Partington (ANZx, SREcon 2022) は、根本原因の特定・アクションアイテムの作成・MTTx 指標の追跡を全て除外した PIR プロセスを高度規制産業(金融)で実践し、「再発インシデントがまれ」という実績を報告した。4者が独立に同じ目標転換に収束したことは、SRE ポストモーテム実践におけるパラダイムシフトとして評価できる (Source: [[ポストモーテム]])。 ## 4. 形骸化の病理と構造的障壁 実践の深化にもかかわらず、ポストモーテムの形骸化は多面的に進行する。Larson は「Incident Legalism」——プロセスが信頼性でなくコンプライアンスに焦点を移す病理パターン——を名付けた。繰り返しのレビュー質問・過度なメタデータ収集・実行不可能な修復提案が特徴であり、ポストモーテムの数を増やしてもアクションアイテムの実行率が上がらなければ信頼性は改善しない (Source: [[ポストモーテム]])。Byrum (Spotify, SREcon 2023) はポストモーテム完了率を実測し、55%(2020年)から改善努力後も62%にとどまると報告した。完了率は生産性影響度に強く相関し、影響度5では100%、影響度1では50%に過ぎず、「重大インシデントほど丁寧に振り返られ、軽微なインシデントは野放しになる」という重篤度バイアスが構造的に存在する。 ポストモーテムの再参照性(referenceability)も未解決課題として残る。Rizqi (Blameless, SREcon 2019) は「再参照性は正直まだ難しい」と認め、Datadog (2021) の「インタラクティブなリビングドキュメント」提案とともに、ポストモーテムデータの発見可能性をスケールさせる問題は二つのソースが異なる角度から共通に認識している。さらに Nolan (SREcon 2022) は、テンプレート形式がナラティブ(謎→調査→解決の3部構成)を失わせ、IR の学習価値を根本的に損なうと指摘した。 ## 5. 個別学習から組織的学習へ——横断分析の系譜 個別のポストモーテムによる学習を組織的知識に昇華させる試みも進展してきた。Lueder (Google, SREcon 2015) は GQM(Goal Question Metric)フィードバックモデルを全プロダクション障害に適用する横断分析プログラムを報告し、「障害群から組織として何を変えるか」という問いの枠組みを定式化した最初の公開事例となった。Li et al. (ISSRE 2022) の三大クラウド354件分析は、ポストモーテムを**データソースとして系統分析に使う**応用の代表であり、TTM が TTR の53%を支配するという構造を定量的に明らかにした。 Byrum (2023) が提唱した「[[インシデント考古学]]」は、過去のインシデント記録をアーティファクトとして仮説検証に用いる第三の活用法を開いた。従来のポストモーテム議論が個別振り返りか横断集計に二極化する中、「探していなかった知見が最も価値高い」という経験的観察は、事後記録の潜在的価値を再評価する視座を提供する (Source: [[インシデント考古学]])。Granda (Enova, SREcon 2025) はクロスインシデント分析を継続プログラムとして自走させる3要素——部門横断の関係者招待・推奨事項とアクションアイテムの分離・コンテキスト付き指標——を10年の実践から蒸留した。 ## 6. 日本の実践における独自進化 日本のウェブ企業も Google SRE の影響下で独自にポストモーテム文化を発展させている。mixi の「ポストモーテムを書いた人を賞賛する」文化、はてなの全社日記ベースの障害共有、カヤック(藤原)の月刊ポストモーテムはいずれも、Slack 連携による非同期議論を取り入れ、形式化された会議体でなく日常のコミュニケーションチャネルに障害学習を埋め込む傾向を共有する。とりわけカヤックの「インシデント → ポストモーテム → sre-advisor → 事前検出 → インシデント予防」という閉ループは、Ruppe の "Insights from the Past = Options in the Future" をツール化によって具体的に実装した事例として位置づけられる (Source: [[ポストモーテム]])。KATO (LINE, 2023) の執筆会議手法——SRE が主導し非専門家を書き手プロセスに組み込む——は、当事者のみで執筆・共有する既存プロセスの5つの構造的問題への解法として、「書き手側への介入」という独自のアプローチを示した。 ## 7. 根本原因分析の技術的進化と根本的批判 ポストモーテムにおける「根本原因」の概念自体も再検討されている。Cook (1998) の命題7は「根本原因帰属は技術的理解ではなく社会的・文化的必要性の反映」と指摘し、Gallego (2018) はポストモーテムにおける root cause 用語の使用を否定、Eckhardt (2019) は "contributing factor discovery" を代替概念として提唱した。de Vesine (Datadog, SREcon 2022) は安全工学の System/Environment 境界モデルで、根本原因をシステムの脆弱性、トリガーを環境条件として再定義し、5 Whys のトリガーホワイトアモール病理を診断した。Barroso (Google, SREcon 2026) は CAST(Causal Analysis using Systems Theory)を Google Maps インシデントに適用し、時系列記述と因果分析の違いを実証した。 一方、技術的な根本原因分析の自動化も急速に進展している。2013年の MonitorRank がパーソナライズドランダムウォークを提案して以降、CloudRanger・AutoMAP・PyRCA と10年にわたり「ランダムウォークの遷移確率をどう設計するか」が手法の核であり続けた (Source: [[根本原因分析]])。2022年には因果推論ベースの RCA(CIRCA・RCD)が登場し、2024年には LLM ベースの RCACopilot が Microsoft 30超チームで4年以上の本番稼働を達成した。Pham et al. (ASE 2024) の包括評価では Dummy ベースラインを超えない手法が多いことが判明し、RCA 研究の進歩がモデルだけでなく評価設計に依存することを浮き彫りにした。 ## 8. 自動化・AI 支援の展望と残された問い ポストモーテムの自動化は「下書き生成」と「品質改善」の二方向で進行している。Google SRE AI はインシデント対応中の情報を自動集約してポストモーテム下書きを生成するエージェントを運用し (Source: [[インシデント管理]])、プレイブックの保守自体を agentic loop に組み込む。しかし、LLM によるポストモーテム自動生成が「非難なき記述」の維持と「根本原因の正確な特定」を両立できるかは未検証であり、プライバシー制約が GenAI サービスの診断速度を構造的に低下させるという新たな課題も報告されている (Source: [[運用障害分析]])。 ## 三つの張力 総じて、ポストモーテムと事後分析の研究は三つの張力のもとで進化してきた。 1. **プロセスの標準化と学習の深さ**——テンプレートはプロセス遵守を助けるがナラティブを失わせる 2. **個別の深掘りと横断的パターン発見**——個別のポストモーテムは文脈の豊かさを持つが、組織的知識への昇華には横断分析の仕組みが必要である 3. **人間の判断と自動化の支援**——RCA の自動化は効率を高めるが、Cook が指摘した「根本原因帰属の社会的構成性」や、Lund・Gallego・Eckhardt が示した「ファシリテーション言語の規律」は、技術的自動化だけでは代替できない人間的判断の領域を指し示す これらの張力をどう均衡させるかが、今後のインシデント学習の設計課題である。