# SRE Book - Chapter 33: Lessons Learned from Other Industries
## 要約
本章は、Google の SRE が他の高信頼性産業からどのような教訓を得ているかを体系的に整理する。防衛、ライフガード、医療機器、通信、原子力、航空、製造、金融など多様な産業から11名の専門家にインタビューを行い、信頼性プラクティスを4つのテーマ(準備と障害訓練、ポストモーテム文化、自動化と運用オーバーヘッド削減、構造化された合理的意思決定)に集約している。各産業は障害が人命や巨額の損失に直結する環境で長年にわたり信頼性手法を磨いてきた。Google はこれらの知見を吸収しつつ、ソフトウェアサービスの障害が人命に直結しにくいという特性を活かし、エラーバジェットによる計算されたリスクテイクで変更速度とディペンダビリティを両立させる独自の信頼性文化を構築したと論じる。
## 主要概念
- **準備と障害訓練(Preparedness and Disaster Testing)**: 高信頼性産業は安全議論を経営会議に組み込み、シミュレーションや実地訓練を日常的に実施する。航空産業は実データを用いたリアルなシミュレータを、原子力海軍は週2〜3回の実機訓練を行う。Google の DiRT(Disaster Recovery Testing)はこれらの訓練文化の延長線上にある。
- **スイングキャパシティ**: 通信産業は大規模イベントや緊急時に移動交換機を配備して需要急増に備える。予測可能な負荷急増への事前準備は、Google のキャパシティプランニングと共通する発想である。
- **多層防御(デフェンスインデプス)**: 原子力産業ではすべてのシステムに冗長性を持たせ、複数の保護層と物理的障壁を設ける。障害耐性をゼロにするという厳格な設計思想は、Google のインフラにおける冗長化設計にも影響を与えている。
- **是正・予防処置(CAPA)**: 非難なき分析を重視する体系的な調査手法である。何が起きたか、組織としてどう対応したかに焦点を当て、個人の責任追及を避ける。SRE のブレームレスポストモーテムの直接的な先行概念にあたる。
- **ニアミス分析**: 製造業や化学産業は、実害が生じなかったがリスクがあった事象を予防的ポストモーテムとして精査する。UK 航空産業の CHIRP(Confidential Reporting Programme)は機密性を担保した報告制度で、ニアミス情報を業界全体で共有する仕組みである。
- **自動化の産業間格差**: 原子力海軍はオペレータ・監督者・工学当直士官の三重承認を求める手動運用を好む一方、製造業は効率と精度のために全面的な自動化を推進する。UK の原子力産業は「30分ルール」を適用し、30分未満の応答が求められる場合は自動化を義務づける。
- **構造化された意思決定**: Google はデータ駆動の意思決定を重視し、上位者の意見に従う HiPPO(Highest Paid Person's Opinion)を排除する。通信産業は実績ある旧システムの安定運用を優先し、金融のプロプライエタリトレーディングはリスク管理チームがトレーダーから独立してシステム停止権限を持つ。
## 実践的指針
- 安全と信頼性に関する議論を定例の経営会議に組み込み、組織全体で信頼性への意識を日常化する
- リアルなシミュレーションと実地訓練を定期的に実施し、障害対応能力を維持・向上させる(Google の DiRT に相当)
- ポストモーテムは非難なき文化で実施し、個人でなくシステムとプロセスの改善に焦点を当てる
- ニアミス(実害のなかった危険事象)も正式な振り返り対象とし、予防的に分析する
- 自動化の導入は産業特性とリスク許容度に応じて段階的に判断する。人命に関わる領域では人間の判断を介在させる設計も合理的である
- 多層防御を適用し、単一障害点を排除する冗長設計を行う
- 意思決定はデータと明示的な前提条件に基づき、権威や直感への依存を最小化する
- 要件定義とデザインに十分な時間を投資し、実装前に障害モードを体系的に洗い出す
- 医療機器産業の「エラークラスの全面排除」のように、単発の修正でなくエラーの種類そのものを構造的に除去するアプローチを追求する
- エラーバジェットの概念を活用し、許容されるリスクの範囲内でイノベーションと変更速度を確保する
## 関連
- [[@2016__OReilly__SRE Book - Chapter 1 Introduction]]
- [[SRE Book]]
- [[SRE]]
- [[ポストモーテム]]
- [[ディペンダビリティ]]
## 出典
Petoff, J. "Lessons Learned from Other Industries," in Beyer, B., Jones, C., Petoff, J. & Murphy, N. R. (eds.) *Site Reliability Engineering: How Google Runs Production Systems*, O'Reilly Media, 2016, Chapter 33.