# 社内障害情報共有のススメ [[Hatena]] のエンジニア shiba_yu36 による 2018 年のブログ記事。障害報告を全社エンジニアに共有する仕組みと、その効果を具体例とともに紹介する。 ## 報告フレームワーク | 項目 | 基準 | |---|---| | **いつ報告するか** | ユーザー影響のあるインシデント、および他チームに価値のあるニアミス | | **誰が報告するか** | インシデントの全文脈を持つチームメンバー | | **誰が受け取るか** | 全社のエンジニア | | **記載項目** | 状況、原因、即時対応、今後の予防策、備考 | ## 実装方法 はてなグループ(社内グループウェア)を利用し、社内日記にインシデント概要を公開してエンジニアをメンション。集約用キーワードにリンクすることで検索可能なアーカイブを構築する。Slack チャンネルとも連携し、インシデント通知から議論が展開する。 ## 文書化の効果 - 構造化された文書化が自然に徹底的な根本原因分析を促す - 他チームが類似問題の発生前に予防策を実装できる - チーム横断のアドバイスと協調的問題解決が生まれる > [!key-insight] 障害共有の射程は「再発防止」を超えて「知識の横展開」にある > ポストモーテムは通常「同じ障害を繰り返さない」ことを目的にするが、全社共有により「類似の構造を持つ別の障害を予防する」という横方向の学習が実現する。 ## 既存 wiki との接続 - [[@mixi developers__インフラ障害対応とポストモーテム]] と並び、日本のウェブ企業におけるポストモーテム文化の具体的実装 - [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] の「広い共有」原則を日本企業で実現した事例 - [[@2018__Google SRE Workbook__Chapter 10 Postmortem Culture - Learning from Failure]] が強調する「広い共有・アクションアイテム追跡・文化的インセンティブ」のうち「広い共有」を最も純粋に実装したケース