# SRE NEXT 2024 登壇報告 [[Yuuki Tsubouchi]] が [[SRE NEXT]] 2024 で発表した「工学としてのSRE再訪」の振り返りブログ記事(2024-08-08)。ベストスピーカー賞を受賞。 ## 要旨 4年半の博士課程研究の集大成として、SRE を**技芸から工学へ**転換するフレームワークを提示した。核心的定義: > SREとは信頼性を適切な値に制御可能とすること 信頼性を指定可能なパラメータに帰着させ、モニタリング・オブザーバビリティ・インシデント対応・段階的変更管理が構造的に機能するという整理を行った。 ## 発表の4章構成 **第一章:技芸と工学の対比** 工学の核心は「客観性」——定量・定性データ、数学・統計学・自然科学の法則に基づくこと。漫画『ラーメン才遊記』の「フェイクから真実を生み出そうとする」プロセスを工学化のメタファーとして使用。 **第二章:システム管理の工学化の歴史** 『ウェブオペレーション』(「ウェブオペレーションは技芸であり、科学ではない」)、SRE本の Mark Burgess 序文、ソフトウェア信頼性工学の振り返り論文、USENIX LISAの35年振り返りを参照。 **第三章:6つのSREオープンチャレンジ** → [[#SRE の 6 つのオープンチャレンジ]] **第四章:学術分野との接続** レジリエンス工学・システム工学・認知心理学・人類学との接点を示し、SRE の Human-Computer Engineering 的発展可能性を提示。 ## SRE の 6 つのオープンチャレンジ 著者が提示した実践的・根本的な未解決問題のリスト: ### 身近な未解決課題 1. **オオカミ少年アラート問題** — 誤検知が多く対応者がアラートを無視するようになる現象 2. **トレースデータが参照されない問題** — 収集しても実際に使われないトレースデータの非効率 3. **インシデント対応の改善ができない問題** — ポストモーテムが実践的改善につながらない構造 ### 根本への問い 4. **SLO の多目的活用** — 信頼性管理以外の意思決定(容量計画・アーキテクチャ選択)にSLOを使えないか 5. **インシデント対応のソフトウェア化** — インシデント対応プロセスそのものをソフトウェアで記述・実行できないか 6. **SLOからアーキテクチャの導出** — 目標とするSLOからシステム構成を逆算できるはず、という問い ## パネルディスカッション:SRE技術トレンド2024 登壇者:@rrreeeyyy、@deeeet / モデレーター:@katsuhisa__ **トレンドの焦点**:Platform Engineering と AI が支配的話題。 **著者による国内SRE進化の整理**: | 時期 | 進化の段階 | |------|-----------| | 2010年代後半〜 | Blameless 文化、リスク受容 | | その後 | トイル削減、SLI/SLO 設計 | | さらに後 | オブザーバビリティ実装 | | 最近 | インシデント対応の組織化 | **重要な洞察**:「SRE・共通基盤開発・ITインフラの区別が付きづらかった状況が、[[プラットフォームエンジニアリング]]の確立により解消された」 ## JAXAのSRE実践(聴講セッション) [[JAXA]] の中平氏による発表「宇宙科学研究所の探査機運用システムにおけるSREのプラクティスの導入と月着陸実証機SLIMでの利用」。 - 宇宙通信の帯域制限 → 分散トレースは不向き(データ量過大) - SLIM着陸時の「特殊QL画面」を Grafana で構築 - IoT デバイス相当のデータレートを前提とした観測設計 ## 著者の将来展望 - **顧客感情を考慮したSLI/SLO** — Sociotechnology 化の未解決チャレンジ - **データ指向アプリケーション設計の議論** — クラウドスケールでコスト問題を引き起こすアーキテクチャ設計の問題提起 - **次回登壇構想** — 特定技術手法の深掘り、または「SRE分野での博士号取得」をテーマに