# SRE NEXT 2024 登壇報告
[[Yuuki Tsubouchi]] が [[SRE NEXT]] 2024 で発表した「工学としてのSRE再訪」の振り返りブログ記事(2024-08-08)。ベストスピーカー賞を受賞。
## 要旨
4年半の博士課程研究の集大成として、SRE を**技芸から工学へ**転換するフレームワークを提示した。核心的定義:
> SREとは信頼性を適切な値に制御可能とすること
信頼性を指定可能なパラメータに帰着させ、モニタリング・オブザーバビリティ・インシデント対応・段階的変更管理が構造的に機能するという整理を行った。
## 発表の4章構成
**第一章:技芸と工学の対比**
工学の核心は「客観性」——定量・定性データ、数学・統計学・自然科学の法則に基づくこと。漫画『ラーメン才遊記』の「フェイクから真実を生み出そうとする」プロセスを工学化のメタファーとして使用。
**第二章:システム管理の工学化の歴史**
『ウェブオペレーション』(「ウェブオペレーションは技芸であり、科学ではない」)、SRE本の Mark Burgess 序文、ソフトウェア信頼性工学の振り返り論文、USENIX LISAの35年振り返りを参照。
**第三章:6つのSREオープンチャレンジ** → [[#SRE の 6 つのオープンチャレンジ]]
**第四章:学術分野との接続**
レジリエンス工学・システム工学・認知心理学・人類学との接点を示し、SRE の Human-Computer Engineering 的発展可能性を提示。
## SRE の 6 つのオープンチャレンジ
著者が提示した実践的・根本的な未解決問題のリスト:
### 身近な未解決課題
1. **オオカミ少年アラート問題** — 誤検知が多く対応者がアラートを無視するようになる現象
2. **トレースデータが参照されない問題** — 収集しても実際に使われないトレースデータの非効率
3. **インシデント対応の改善ができない問題** — ポストモーテムが実践的改善につながらない構造
### 根本への問い
4. **SLO の多目的活用** — 信頼性管理以外の意思決定(容量計画・アーキテクチャ選択)にSLOを使えないか
5. **インシデント対応のソフトウェア化** — インシデント対応プロセスそのものをソフトウェアで記述・実行できないか
6. **SLOからアーキテクチャの導出** — 目標とするSLOからシステム構成を逆算できるはず、という問い
## パネルディスカッション:SRE技術トレンド2024
登壇者:@rrreeeyyy、@deeeet / モデレーター:@katsuhisa__
**トレンドの焦点**:Platform Engineering と AI が支配的話題。
**著者による国内SRE進化の整理**:
| 時期 | 進化の段階 |
|------|-----------|
| 2010年代後半〜 | Blameless 文化、リスク受容 |
| その後 | トイル削減、SLI/SLO 設計 |
| さらに後 | オブザーバビリティ実装 |
| 最近 | インシデント対応の組織化 |
**重要な洞察**:「SRE・共通基盤開発・ITインフラの区別が付きづらかった状況が、[[プラットフォームエンジニアリング]]の確立により解消された」
## JAXAのSRE実践(聴講セッション)
[[JAXA]] の中平氏による発表「宇宙科学研究所の探査機運用システムにおけるSREのプラクティスの導入と月着陸実証機SLIMでの利用」。
- 宇宙通信の帯域制限 → 分散トレースは不向き(データ量過大)
- SLIM着陸時の「特殊QL画面」を Grafana で構築
- IoT デバイス相当のデータレートを前提とした観測設計
## 著者の将来展望
- **顧客感情を考慮したSLI/SLO** — Sociotechnology 化の未解決チャレンジ
- **データ指向アプリケーション設計の議論** — クラウドスケールでコスト問題を引き起こすアーキテクチャ設計の問題提起
- **次回登壇構想** — 特定技術手法の深掘り、または「SRE分野での博士号取得」をテーマに