@2019__yuuk.io__2019-SRE-Thinking - yuuk1's Digital Garden

# @2019__yuuk.io__2019-SRE-Thinking **著者**: [[Yuuki Tsubouchi]]（当時 [[Hatena]] SRE → 2018 年以降 [[SAKURA Internet]] Research Center） **発行**: 2019-01-16、ゆううきブログ **URL**: https://blog.yuuk.io/entry/2019/thinking-sre ## 要旨 [[Yuuki Tsubouchi]] による 2019 年時点の SRE 考察。SRE を「サイト信頼性を**制御する**ための技術」と再定義し、単なる可用性向上ではなく「維持・低下を含む意図的な制御」という能動的な視座を提示する。2015 年の Mercari SRE チーム発足に触発され、ソフトウェアエンジニアリングがインフラ運用に持ち込む体系的手法への関心から執筆された。著者は当時 Hatena の SRE エンジニアとして 6 年間の実践を踏まえた記述をしている。 ## 核心論点 ### 1. SRE の再定義：「改善」から「制御」へ著者は SRE を「サイトの信頼性を向上させる技術」ではなく、「**サイト信頼性を制御するための技術**」と定義する。「制御」という語は、信頼性を上げるだけでなく、意図的に維持・低下させることも含む。100% 可用性は不要であり、組織の目標に応じて信頼性水準を設計するという発想だ。この定義は SRE Book の「ソフトウェアエンジニアに運用を任せたら生まれるもの」という描写的定義に対し、目的論的な補完を与える。 ### 2. 信頼性・変更速度・コストの三つどもえ SRE は信頼性と変更速度のトレードオフ問題を、ソフトウェアエンジニアリングによって解消しようとする試みである。自動化されたオペレーション（デプロイパイプライン、ロールバック自動化など）は MTTR を短縮し、変更速度の向上をむしろ信頼性向上につなげる。[[エラーバジェット]]はこの三角形の均衡を運用プロセスに組み込む仕組みである。 ### 3. SLI/SLO による定量化 [[サービスレベル目標]]（SLI/SLO）は、信頼性を抽象的な感覚から数値目標に変える核心ツールである。著者は「段階的に組織に合った指標を構築せよ」と説き、完璧な計測システムを最初から求めないことを推奨する。 ### 4. 技芸から工学への転換伝統的なウェブオペレーションは、熟練者個人の経験則に依存する「技芸（Craft）」だった。SRE はこれを、定量的・再現可能・体系的な「工学（Engineering）」へと転換するパラダイムシフトを象徴する。この論点は [[Mark Burgess (SRE)]] の Promise Theory、CFEngine の設計思想とも響き合う。 ### 5. 信頼性ヒエラルキーとモニタリングの基盤性信頼性の階層構造の最下層にはモニタリングがある。何が起きているかを観測できなければ、制御はできない。著者はモニタリング→可用性向上→インシデント対応→根本原因分析という段階的な構築を推奨する。 ## 参照・引用 - SRE Book（Betsy Beyer ほか編、O'Reilly 2016；日本語版 2017）→ [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] - The Site Reliability Workbook（O'Reilly） - [[Mark Burgess (SRE)]]（CFEngine 作成者、Promise Theory） - Mercari（2015 年に SRE チームを発足。著者が SRE に関心を持つきっかけ） - クックパッド（GPU→CPU 移行によるコスト削減事例） ## 横断的知見 - **「制御」というフレームは SRE の能動性を際立たせる**: SRE Book は SRE を「ソフトウェアエンジニアリングを運用に適用するディシプリン」と描写的に定義する。Yuuki の「サイト信頼性を制御するための技術」という定義は目的論的であり、「信頼性は設計上のパラメータとして意図的に選択できる」という[[エラーバジェット]]の核心思想を端的に言語化している。この視点は [[SRE AI Autonomy Levels]] における L3/L4 の「エージェントが信頼性目標を維持するよう自律的に行動する」という枠組みと整合する。 - **日本国内 SRE の草創期の証言**: Mercari が 2015 年に SRE チームを発足させた事実は、日本国内での SRE 普及の起点として機能した。著者が 2013〜2018 年に Hatena で SRE を実践していた時期と重なり、SRE Book（2016）の日本語版（2017）が出る前から日本のウェブ企業がこの考え方を実践し始めていたことを示す一次資料的証言である。 - **「技芸から工学へ」というテーゼは 2019 年以降の AIOps・LLM4SRE 文脈に継続する**: 著者は 2019 年に「ウェブオペレーションが技芸から工学になりつつある」と論じた。この 5 年後、同じ著者は [[@2024__yuuk.io__The-World-of-LLM4SRE]]（2024）で「LLM を推論機械として SRE の診断プロセスを再現する」という次の転換点を示す。技芸→工学（2019）→エージェント化（2024）という著者自身の思想の展開が、本 wiki の SRE 系概念群の歴史的縦軸を形成する。 ## 関連 - 著者: [[Yuuki Tsubouchi]] - 概念: [[SRE]] / [[エラーバジェット]] / [[サービスレベル目標]] / [[トイル]] / [[インシデント管理]] - エンティティ: [[Hatena]] / [[SAKURA Internet]] / [[Mark Burgess (SRE)]] - 関連ソース: [[@2024__yuuk.io__The-World-of-LLM4SRE]] / [[@2016__OReilly__SRE Book - Chapter 1 Introduction]] / [[@2016__OReilly__SRE Book - Chapter 3 Embracing Risk]] - 関連 MOC: [[structures/SRE - MOC]] ## 出典 - URL: https://blog.yuuk.io/entry/2019/thinking-sre（取得: 2026-06-06）