# From Sysadmins to (almost) Flying Unicorns [[Guillaume Hérail]] と [[Gilberto Müller]]([[Sony Interactive Entertainment]]、Future Technology Group、ベルリン)による SREcon23 EMEA(2023-10-10、ダブリン)の講演。システム管理/オペレーションチームからSREチームへ文化的に転換した約5年間のケーススタディ。 ## 概要 [[Sony Interactive Entertainment]](SIE)の PlayStation Cloud Gaming サービスを担う Future Technology Group が、2018 年頃から抱えていた 5 つの課題(トイル過多・フィードバックループ外・アラート過多・信頼性軽視・SRE ビジョン不在)を段階的に解消した実践報告である。TOS の創設・SRE Academy・CFT 導入・SLO 整備・Reliability Meetup・Staff SRE ビジョン策定の 6 施策を順に実施し、各施策の Before/After を示す。 ## 主要メッセージ - **問題の出発点(p.14)**: SRE がトイル過多・ループ外・アラート多・信頼性軽視・ビジョン不在を「賞賛されたシスアドに過ぎない」と痛感していた - **TOS(p.26–28)**: 割り込みを吸収する TOS レイヤーを設け、SRE を自動化・オブザーバビリティ・レジリエンシーへ解放した。TOS は「食品業界出身者」など多様なバックグラウンドを持つエントリーレベル機会として機能する - **SRE Academy(p.28)**: TOS から SRE へのキャリアパス。既にビジネス知識と環境知識を持つ TOS を速成転換する「ユニコーン工場」 - **CFT(p.34)**: SRE が設計段階(Design フェーズ)に参加することでフィードバック遅延が改善された。Dev/RelEng/SRE が設計段階で協働すると Pre-production の所有がより早い段階へ移行する(p.36) - **SLO・専任担当(p.41)**: SRE の時間配分は CFT 80% / 機能チーム 20%。横断イニシアチブには専任アサインが必要 - **Reliability Meetup(p.49–50)**: 月次、2.5 年間 22 回、登壇 46 名(うち非 SRE 23 名)、参加者 600+ 名。SRE と非 SRE が信頼性について対話する場を継続することで組織全体の理解が進んだ - **成功要因(p.62)**: Executive Support・IC/Management Pairing・Fail iterate・Communicate! の 4 つ ## 視覚的に重要な図表 **p.11 フィードバックループ外(Before)** ![[_attachments/srecon23emea-herail/page-011.png]] 設計フェーズ(Team A/B)・プレプロダクション(Team B 所有)・プロダクション(SRE 所有)が分断され、SRE が設計にフィードバックする経路が不明(?)なまま、全体のリードタイムが「Months」にわたることを示す。 **p.26 TOS → SRE フィルター構造** ![[_attachments/srecon23emea-herail/page-026.png]] Interruptions → TOS → SRE → Automation/Observability/Resiliency という二段フィルター構造。TOS が割り込みを吸収し、SRE がプロアクティブな本来業務に専念できることを示す。 **p.34 CFT 導入後(After)** ![[_attachments/srecon23emea-herail/page-034.png]] SRE が設計フェーズ(Team A/Team B/SRE の三者ループ)に参加するようになり、フィードバックが設計段階で行われる。リードタイム軸は依然 Months だが、SRE が設計ループ内に入ったことが構造上の変化である。 **p.36 RelEng 参加によるサイクル短縮** ![[_attachments/srecon23emea-herail/page-036.png]] Dev/RelEng/SRE が設計段階で協働し、Pre-production を RelEng が所有することで、プロダクション前のサイクルタイムが「Minutes」に短縮された(p.34 の「Months」からの改善)。 **p.41 時間配分 CFT 80% / 機能チーム 20%** ![[_attachments/srecon23emea-herail/page-041.png]] 横断的な CFT 活動に 80%、機能チーム固有業務に 20% という時間配分。横断的イニシアチブを推進するには SRE の大半の時間を CFT に充てる必要があることを示す。 **p.61 SRE エコシステム全体像** ![[_attachments/srecon23emea-herail/page-061.png]] SRE を中心に、Vision・OPS・SRE Academy・SLO・CFT×3 が接続する最終形。各施策が独立に存在するのでなく、SRE を核とした有機的なエコシステムとして機能することを示す。 **p.62 成功要因4つ** ![[_attachments/srecon23emea-herail/page-062.png]] 1. Executive Support、2. IC/Management Pairing、3. Fail iterate、4. Communicate! の 4 要因。 ## 概念・実体への接続 - [[Guillaume Hérail]] — 登壇者, Staff SRE, [[Sony Interactive Entertainment]] - [[Gilberto Müller]] — 登壇者, SRE Manager, [[Sony Interactive Entertainment]] - [[Sony Interactive Entertainment]] — 組織 - 概念: [[SRE組織変革]] / [[SRE]] / [[トイル]] / [[サービスレベル目標]] ## 限界・不確実点 - transcript(音声/動画文字起こし)は未取得。口頭補足・Q&A 内容は不明。 - SREcon23 EMEA の動画は USENIX 会員限定のため取得不可。 - p.35 の「Jumping on the bandwagon」スライドに `* Your mileage may vary` という注記があるが、何を指すかスライドテキストのみでは特定できない(RelEng への言及と推察されるが口頭説明が必要)。 - 時系列の具体的な日付(TOS/CFT/SLO 各施策の開始・完了時期)はスライドに記載なし。 - Cloud Gaming サービスの規模(ユーザー数、サービス数)は非開示。