@2016__OReilly__SRE Book - Chapter 28 Accelerating SRE On-Call

# SRE Book - Chapter 28: Accelerating SREs to On-Call and Beyond ## 要約本章は新規 SRE のオンボーディングと継続的な教育について、体系的な方法論を提示する。「火中の栗を拾わせる」式の試行錯誤型アプローチを明確に否定し、理論的理解と実践経験を組み合わせた構造化された学習パスの設計を主張する。具体的には、累積的学習パス、意味のあるプロジェクトワーク、リバースエンジニアリング能力の涵養、ポストモーテム分析の教育的活用、Wheel of Misfortune と呼ばれる障害シミュレーション演習の5つの訓練手法を柱とする。さらにシャドーオンコール、制御下での本番システム操作、ドキュメンテーション整備への参加といった補助的実践を通じ、オンコール着任前に自信と能力の両面を担保する。「人間のスケールをマシンのスケールより速くせよ」という原則が全体を貫く。 ## 主要概念 - **累積的学習パス（Cumulative Learning Paths）**: 知識を段階的に積み上げる構造化されたアプローチ。クエリ入口からフロントエンド、中間層サービス、インフラストラクチャへと順次学習範囲を拡大する。ランダムなチケット割り当てではなく、明確なコンピテンシー要件を持つチェックリストを用いる。 - **意味のあるプロジェクトワーク（Targeted Project Work）**: 新規 SRE に雑務ではなく、モニタリングの追加、ペインポイントの自動化、フィーチャーリリースのシェパーディングなど、本番システムへの理解を深める有意義なプロジェクトを割り当てる。 - **リバースエンジニアリング能力**: 本番システムの構成図を自力で描き、デバッグツールを使いこなし、システムの振る舞いを統計的に考える能力。未知のシステムに対峙したときの基本的な対処力を形成する。 - **ポストモーテム読書会**: 過去のインシデントから「教育的ポストモーテム（teachable postmortems）」を厳選し、読書会形式で議論する取り組み。障害分析が将来のチームメンバーの教材となり、組織知を蓄積・伝承する仕組みである。 - **Wheel of Misfortune 演習**: 毎週実施する障害シミュレーション演習。経験豊富なゲームマスターがリアルなシナリオを進行し、チームメンバーが実際の障害対応手順を練習する。制御された環境での失敗経験が実際のインシデント対応力を高める。 - **シャドーオンコール**: 新規 SRE がプライマリオンコール担当になる前に、経験豊富なエンジニアの実際のインシデント対応を観察する段階。まずは業務時間内のシャドーイングから開始し、徐々に責任範囲を拡大する。 - **統計的思考力**: 根本原因の特定においてパターン認識や確率的推論を活用する能力。直感的判断ではなく、データに基づいた体系的な障害分析を可能にする。 ## 実践的指針 - 試行錯誤型（trial by fire）のオンボーディングを避け、事前の訓練投資が長期的に見合うことを認識する。 - 学習内容を段階的に構造化し、システムの外縁から中核へと順序立てて理解を深めさせる。 - 新規 SRE には雑務ではなく、モニタリング追加や自動化改善など本番環境への理解を深めるプロジェクトを与える。 - ポストモーテムのアーカイブから教育に適したケースを厳選し、定期的な読書会を開催する。 - Wheel of Misfortune 演習を定期的（週次が理想）に実施し、ゲームマスターが進行するリアルなシナリオで対応力を鍛える。 - オンコール着任前に制御された条件下で本番システムの操作（意図的な破壊を含む）を経験させる。 - シャドーオンコールでは業務時間内から開始し、実際のインシデント対応を観察・学習させてからプライマリに昇格させる。 - 陳腐化したドキュメンテーションの更新作業を新規 SRE に担当させ、学習と整備を同時に達成する。 - オンコール着任後も継続的な教育プログラムを維持し、チーム全体の技術力底上げを図る。 ## 関連 - [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] - [[@2016__OReilly__SRE Book - Chapter 11 Being On-Call]] - [[@2016__OReilly__SRE Book - Chapter 13 Emergency Response]] - [[@2016__OReilly__SRE Book - Chapter 14 Managing Incidents]] - [[@2016__OReilly__SRE Book - Chapter 15 Postmortem Culture - Learning from Failure]] - [[SRE Book]] - [[SRE]] ## 出典 Beyer, B., Jones, C., Petoff, J., & Murphy, N. R. (Eds.). *Site Reliability Engineering: How Google Runs Production Systems*. O'Reilly Media, 2016. Chapter 28: Accelerating SREs to On-Call and Beyond (Written by Andrew Widdowson, Edited by Shylaja Nukala).