# Unified Theory of SRE [[Emil Stolarsky]]([[Wave Mobile Money]]、SREcon22 EMEA、2022-10) ## 概要 SRE Book は Google という特殊な組織(1200+ SRE、2400+ インフラエンジニア)の視点から書かれており、これを教典として扱うことは中小規模組織にとって危険である。本発表は SRE の歴史的文脈を整理しつつ、スタートアップ向けに SRE を再構築する具体的な指針を提示する。口頭では「SRE に対する信頼喪失の経験談」として動機を語っており、ドイツの 2 名しかインフラエンジニアがいない企業からのオンコール相談がきっかけだという。 ## 主要メッセージ - **SRE の歴史**: 2003 年 Google 創設 → 2009 年 Facebook 導入 → 2010 年 Facebook で SRE を SRO + AppOps に分割 → 2012 年 AppOps を Production Engineering に改名 → 2014 年 Facebook で SRO 廃止、初 SREcon → 2016 年 SRE Book 発刊(p.6-12) - **SRE Book の規模前提**: 70+ 名の著者、数十チームの貢献者、2016 年時点で Google に 1200+ SRE が存在した。インフラ部門には SRE の少なくとも同数の SWE が存在し、合計 2400+ エンジニアが携わっていた(p.19-28) - **SRE 基盤のひび割れ**: 1200+ SRE 規模の前提で書かれた本は、同規模でない組織に適用できない。スタートアップが同じ実践をすることはカーゴカルティング(コンテキスト不理解のまま手順を踏む)に相当する(p.33) - **スタートアップの現実**: Default Dead(死亡デフォルト)状態では Product-Market Fit が最優先であり、SRE は信頼性よりも開発速度の向上に集中すべき(p.38) - **Boring Technology の原則**: サービスは本質的に似通っており、コミュニティで設計を標準化できる。イノベーショントークンを消費しない「退屈な技術」を使うべき(p.43) ## 視覚的に重要な図表 **p.11 SRE 歴史タイムライン(完成形)** ![[_attachments/srecon22emea-stolarsky-unified-theory-sre/page-011.png]] 2003(Google SRE 誕生)→ 2009(Facebook SRE)→ 2010(SRO + AppOps)→ 2012(Production Engineering)→ 2014(SRO 廃止・初 SREcon)→ 2016(SRE Book 発刊)という年表。出典は Ben Treynor at SREcon2014 および Pedro Canahuati at SREcon2015。 **p.27 SRE Book の組織規模(SRE 側)** ![[_attachments/srecon22emea-stolarsky-unified-theory-sre/page-027.png]] Engineering → Infrastructure → SRE(1200+) / SWE Software(AT LEAST 1200+) という二分木。SRE サブツリー全体を囲む赤円と「1200+ SREs」ラベルが視覚的要点。SWE サブツリーは「AT LEAST 1200+ SWEs」と表記。 **p.28 インフラ全体規模** ![[_attachments/srecon22emea-stolarsky-unified-theory-sre/page-028.png]] Infrastructure ノードに「2400+ Engineers」と大きな赤矢印。SRE Book が書かれた組織のインフラエンジニアの総規模が 2400+ であることを示す。 **p.36 スタートアップ向け SRE 組織図** ![[_attachments/srecon22emea-stolarsky-unified-theory-sre/page-036.png]] Engineering → (Support | SRE | Product) という 3 分岐構造。SRE がインフラ専門組織でなく汎用エンジニアリング傘下に位置する。 **p.42 技術フロンティアと大多数の差** ![[_attachments/srecon22emea-stolarsky-unified-theory-sre/page-042.png]] 手書き風グラフ。縦軸「edge of technology」、横軸「time」。上昇曲線の先端に Google/Facebook/etc.、曲線よりはるか下方に「Most of us」。キャプション:「FAANG+ companies operate at the edge of technology while the rest of us have much simpler needs.」 ## 口頭説明・補足 ドイツの 2 名体制のインフラチームからオンコール体制の相談を受けた際、答えが出なかったことが本発表の動機だったと語っている(transcript 冒頭)。それまで「SRE には常に答えがある」と信じていたが、小規模チームには SRE Book の処方が当てはまらないことを認識した。 Facebook のネーミング変遷に関して、Pedro Canahuati(SRE 2015 での Production Engineering に関するトーク)は「タイトルを変えるだけでは駄目」という議論に対し、「いや、タイトルは大きなインパクトを持つ」と主張していたと紹介している。 SRO が 2014 年に Facebook で廃止された理由:インフラとモニタリングのツールを十分に構築し終えた後、組織が大きくなりすぎて一つのチームで管理できなくなったため、各エンジニアリングチームが自律的に運用を担うよう移行した(transcript 165-177 行目)。 スタートアップでのテクノロジー選定について「That's right, no Kubernetes(そう、Kubernetes は不要)」という表現を 2 度使い(p.40・p.43)、複雑な本番技術は開発速度の障壁になると強調している。 ## 概念・実体への接続 - 理論的前提: [[SRE]] / [[SRE Book]] / [[エラーバジェット]] / [[サービスレベル目標]] / [[インシデント管理]] - 対比: [[Ben Treynor Sloss]](2003 Google SRE 創設)/ [[Niall Murphy]](SREcon21 でのコール・トゥ・アクション) - 派生概念: [[SRE組織変革]] / [[ソフトウェア信頼性工学]] ## 限界・不確実点 - transcript は YouTube の自動字幕(機械精度)のため固有名詞の誤認識がある("nylon Daria" は "Niall Daria"、"solve a conference" は "Solvay conference" 等) - Facebook の SRE 組織変遷の正確な規模数値(2009-2014)はスライド上に記載なく、Pedro Canahuati の SREcon2015 講演を二次引用している - SREcon22 EMEA の正確な登壇日(October 25-27, 2022 の内)は特定できていない - Wave Mobile Money での現在の具体的な SRE 実践内容はスライドに含まれていない