# 工学としてのSRE再訪
[[坪内佑樹]]([[さくらインターネット研究所]]上級研究員・[[Topotal]] テクノロジアドバイザー・京都大学大学院 Ph.D. Candidate)による [[SRE NEXT]] 2024(東京、2024-08-03)での発表。SRE を「エンジニアリング(実務的側面)」ではなく「工学(学術的側面)」として再訪し、(1) 工学化の歴史的背景、(2) 未解決のオープンチャレンジ、(3) SREcon を窓口とした他学術分野との接続、の三つの軸で SRE の次の方向を探る。
## 概要
「Engineering」の訳語である「工学」に焦点を当て、SRE のまだ語られていない工学化の背景と未発見・未解決課題を議論する。SRE NEXT 2020 の基調講演を今やるなら——という再訪の構成で、登壇者自身の 10 年間(新卒エンジニア → 研究者)のキャリア変遷を縦糸に、技芸から工学への移行を横糸に編む。
## 主要メッセージ
### 1. 工学化の歴史的背景
システム管理は長らく「技芸であり科学ではない」と見なされてきた。ウェブオペレーション(2010)は「正しい方法はどこにも存在しない」と述べ、USENIX board は「システム管理には科学的なことも研究的なことも何もない」と否定し、Mark Burgess(1999)が「システム管理はヒューマンコンピュータエンジニアリングの一形態」と主張した際にも強く否定するレビュアーがいた。ソフトウェア信頼性工学(Software Reliability Engineering)は SRE の前身的分野だが出荷前プロセスに着目しており、SRE とは異なる。USENIX LISA(1987–2022)は 2022 年に SREcon へ統合された。
先人の努力により現代では工学としての地位を確立しつつあり、代表的貢献として **エラーバジェットに基づく意思決定法**(信頼性の予算化)、**テレメトリーに基づく演繹的デバッグ法**(オブザーバビリティ)、**DORA/SPACE による開発生産性の定量指標化**、**Team Topologies による適応型組織設計法**を挙げる。
![[_attachments/srenext2024_yuuk1/page-012.png]]
技芸的アプローチ(手段指向・局所視点・主観的)から工学的アプローチ(目的指向・全体俯瞰・客観的)への転換。「今の状態」から「あるべき状態」との差分を定め行動を導く。(p.12)
### 2. SRE のオープンチャレンジ
身近な課題として三つ、根本への問いとして三つを提示する。
**身近な課題**:
- **オオカミ少年アラート問題**: アラートのアクション有無を都度記録し、不要アラートをランキング化、上位の削除・修正を自動提案する定量的アプローチ。(p.27)
- **トレースデータが参照されない問題**: シグナルの細粒度化 ↔ コスト増大 ↔ サンプリング ↔ エッジケース見逃しのジレンマ。障害前後だけトレースする事後遡及収集(Hindsight, NSDI 2022)を解として示す。(p.28)
- **インシデント対応の改善**: TTR のライフサイクル(検知 → 箇所特定 → 緩和 → 障害からの時間)を定量的に計測し、ボトルネックを特定して優先改善する。(p.29)
![[_attachments/srenext2024_yuuk1/page-029.png]]
障害ライフサイクル(Li et al., ISSRE'22 Fig.2 転載)。検知時間・箇所特定時間・緩和時間・障害からの時間を分離して計測する。(p.29)
**根本への問い**:
- **SLO ベースの多目的意思決定**: エラーバジェット残量を使い切らないように、原因特定 or 復旧優先・根本対策実施 or 不実施・冗長度増減・アラート追加削除などを適応的に制御する。(p.31)
- **インシデント対応のソフトウェア化**: インシデント対応は人間の組織的行動に依存するためソフトウェアエンジニアリングで定式化が難しいが、LLM は組織行動を自然言語でプログラミング可能とし、将来的には AI にシステムを操作させる方向性を示す。(p.32)
- **SLO からシステムアーキテクチャの導出**: SLO とワークロードからキャパシティ・高可用性・負荷分散・キャッシング・非同期化・インシデント対応体制を含むシステムアーキテクチャを導出できるはず。(p.33)
![[_attachments/srenext2024_yuuk1/page-033.png]]
SLO + ワークロード → システムアーキテクチャ → データ構造の導出。r9y.dev を参照。(p.33)
### 3. SREcon 経由の学術分野接続
SREcon にはアカデミックな背景を含むプレゼンが一定数あり、分野は分散システム・信頼性工学/レジリエンス工学/安全工学・社会学・認知科学と多様。Ph.D. 取得者・博士課程学生の登壇例も少なくない。
紹介した SREcon 発表(講演ではスキップと明記された 3 件を含む):
- **Gray Failure** (SREcon24 Americas): HotOS'17 発の障害パターン。障害検出器が気づかない障害。
- **Metastable Failure** (SREcon23 Americas): HotOS'21 発。トリガーを除去しても劣化が継続する障害パターン。
- **Cross-System Interaction Failures** (SREcon23 Americas): EuroSys'23 発。システム間相互作用に由来する障害の体系化。
- **A Political Scientist's Insights** (SREcon21): Luhmann の社会システム論の SRE への適用。"Only complexity can reduce complexity."
- **Measuring Reliability Culture** (SREcon24 Americas): Meta のエンジニアへのインタビュー・アンケートで信頼性文化を量的・質的に計測。54% のチームが "Find it hard to identify reliability gaps"。
- **Ironies of Automation** (SREcon19 Asia): Bainbridge (1983) の皮肉——自動化するほど人間に高度スキルを要求する——に加え、自動化が人間の能力不足を隠蔽する新しい皮肉を提示。
- **Process Feeling** (SREcon21): レジリエンス工学の大家 David Woods が提唱。原子力発電所のオペレーターは制御カウンターの音で正常性を感覚的に理解していた。SLO 範囲内で正常でも部分異常にすぐ気づける。
- **Controlling the Costs of Coordination** (SREcon20 Americas): Laura Maguire の博士課程研究。4 組織 62 件のインシデント対応事例から、インシデントコマンダーへの情報集中は認知的過負荷をもたらすため、分散型の調整モデルを提唱。
![[_attachments/srenext2024_yuuk1/page-046.png]]
SREcon から得られた 5 つの示唆。(p.46)
### 4. むすびと付録
![[_attachments/srenext2024_yuuk1/page-049.png]]
再訪のまとめ: 3 軸(歴史的背景 → 未解決課題 → SREcon 経由の学術接続)。接続される分野はシステム工学・レジリエンス工学・認知科学・人類学・社会学。Human-Computer Engineering 発展の可能性。(p.49)
**SRE の定義(2024 年 yuuk1 版)**: SRE とは、高頻度の変更を前提とするシステムを対象に、(1) 利用者視点での信頼性を計測可能な変量に帰着させ、(2) 信頼性を適切な値に制御可能とすることにより、(3) 他の変量(変更速度、費用など)を望ましい値に導く、ことを目的とするソフトウェア工学の一分野——最適化問題のような形で定義している。(p.53)
![[_attachments/srenext2024_yuuk1/page-053.png]]
工学としての SRE の定義(2024 年 yuuk1 版)。(p.53)
**技芸と工学の共存**: 「工学は文化創造学である」(原島博, 2016)、「システムエンジニアリングは科学であると同時に芸術でもある」(IPA, 2017)から、技芸は排除されるものではなく共存させるものではないか、と問いかける。(p.51)
**ウィーナー界面**: ウィーナーの『サイバネティックス』日本語版前書きの「制御できる変量と制御できない変量」の議論を引き、稲見昌彦が名付けた「ウィーナー界面」——制御可能な世界と不可能な世界の境界——がエンジニアリングの目的を語る、と紹介する。(p.62)
![[_attachments/srenext2024_yuuk1/page-060.png]]
SRE はシステム管理に目的と全体俯瞰を与える。SLI/SLO・オブザーバビリティ・インシデント管理・変更管理を左軸に、非機能要件(信頼性)の適切な制御を通じてユーザーに価値を届ける構造図。(p.60)
## 口頭説明・補足
YouTube 自動字幕(日本語)から取得。口頭では以下の補足があった:
- 「プログラマー定年を迎えた」(冗談)——今年はコードを書かず論文を読み書きしている、と導入。
- 2020 年基調講演を「やり直す気分」で臨んでいる。
- ウィーナー界面は稲見昌彦による造語で、出典は藤井直敬『現実とは? 脳と意識とテクノロジーの未来』(ハヤカワ新書)。
- 付録スライド(p.52–70)は時間内に扱いきれず、詳細は SpeakerDeck を参照。
- 翌日のパネルディスカッション「SRE の技術トレンド 2024」にも登壇。
## 概念・実体への接続
- [[坪内佑樹]] — 登壇者。SRE の工学化を博士研究の一環として推進。
- [[さくらインターネット研究所]] / [[Topotal]] — 所属。
- [[SRE NEXT]] — 日本国内の SRE カンファレンス。2020 年より開催。
- [[サイバネティクス]] — ウィーナー界面の概念を SRE の制御論に接続。
- [[自動化の皮肉]] — Bainbridge (1983)。SREcon19 Asia で新たな皮肉を提示。
- [[アラート管理]] — オオカミ少年アラート問題を工学的課題として提示。
- [[インシデント管理]] — TTR ライフサイクル分解・LLM による組織行動プログラミング。
- [[サービスレベル目標]] — エラーバジェット残量に基づく多目的意思決定。
- [[SREの工学化]] — 本講演の中心概念。技芸から工学への移行と共存。
## 限界・不確実点
- YouTube 自動字幕(日本語)は機械精度であり、口頭の細部(特に固有名詞の読み)に不正確な箇所がある。数値・固有名・図表はスライド画像を正とした。
- 付録(p.52–70)は講演中にスキップされた補足資料。口頭での解説はない。
- SREcon の参照発表 3 件(Gray Failure・Metastable Failure・Cross-System Interaction Failures)は「講演ではスキップ」と明記されている。