# とあるSREの博士「過程」 [[坪内佑樹]]([[さくらインターネット研究所]]上級研究員、[[京都大学]]博士(情報学)、[[Topotal]] テクノロジアドバイザー)による [[SRE NEXT]] 2025 IN TOKYO(2025-07-11)での発表。全 83 ページ(本編 50 ページ + 付録 30 ページ超)。SRE NEXT 登壇皆勤(2020 年基調講演から 2025 年まで)、2024 年ベストスピーカー賞受賞者が、博士課程の動機・個別研究・博士論文のまとめ方・振り返りを語った。 ## 概要 SRE として「技術を使う側から作る側になりたい」と考えた登壇者が、伝統的 CS 分野では難しくとも「運用を含むエンジニアリング(工学)」であれば新しい知を積み上げられると判断し、博士課程に進学した経緯と、その過程・成果・振り返りを 4 部構成で語る。 ## 主要メッセージ ### 1. はじめに — なぜ博士課程か(p.5–13) ![[_attachments/srenext2025/page-013.png]] 博士課程の位置付け: CS とエンジニアリングの交差領域で、学術研究(新しい知の積み上げ)の訓練を受ける場。 - 2015 年の若手インフラ現状確認会(#wakateinfra)で「技術を使う側から作る側になりたい」と志向した。 - 2010 年代後半に CloudNative 系 OSS・SaaS が普及し、「自分は何をやっていくのか」という問いが生じた。 - The Morning Paper on Operability (2016) を契機に「運用に関連する論文は実は多い」と認識した。 - SRE は CS の知識を「使う」側だが、運用を含むエンジニアリング(工学)であれば「作る」側になれると考え、博士課程を訓練場として位置づけた。 ### 2. 博士課程 — 個別研究編(p.14–25) **第一の研究: 時系列 DB アーキテクチャ([[HeteroTSDB]])** ![[_attachments/srenext2025/page-016.png]] メモリベース KVS(Redis)とディスクベース KVS(Cassandra)を結合し、新着データの高速挿入と古いデータの保存コスト効率を両立。 - 前職で開発・本番投入したシステムを学術的に再言語化する困難を経験した。「マネージドサービスがすごいだけでは」という反論に対し、「エンジニアに DB 製品の選択肢を提供可能な時系列 DB アーキテクチャ」としてより普遍的な貢献を定式化した。 **第二の研究: NW コールグラフトレーシング(Transtracer)** - カーネルでの eBPF 計装に着目し、ネットワーク通信経路上の計測点としてカーネルを選択した。 - 既存手法①(パケット数増大で CPU オーバーヘッド増大)、既存手法②(短命 TCP 接続でオーバーヘッド増大)に対し、"Aggregation of aggregation" の手法で解決したが、エッジケースの問題解決となり貢献が縮小していった。 **第三の研究: AIOps — 特徴量削減([[MetricSifter]])** ![[_attachments/srenext2025/page-021.png]] 多次元ラベリングによるメトリクス数増大がノイズを増やす問題に対し、障害原因特定の前処理として特徴量削減を挟む手法を提案。 - AIOps 研究ではデータ・モデル・評価指標の 3 軸が非線形的に結果に影響し、膨大な試行錯誤が発生した。第一・第二研究の線形的な評価指標(時間・リソース消費)とは性質が異なる。 - SRE NEXT 2022 での発表から 2 年弱かけて論文化し、2 カラム 20 ページ超の大作になった。 ### 3. 博士課程 — 博士論文編(p.26–32) ![[_attachments/srenext2025/page-028.png]] 中核概念の整理: どの個別研究もワークロードの増大に対する解決になっていた。 ![[_attachments/srenext2025/page-030.png]] 研究目的: テレメトリシステムの負荷増大に対して、運用複雑性の増加を抑える条件下で効率的にスケーリングさせる。 - システム階層軸(計測・保存・分析)とデータ軸(メトリクス・トレース)の 2 軸で整理したが、データ軸がずれていたためそのままではまとめられなかった。 - 3 つの個別研究すべてが「ワークロードの増大に対する解決」であるという共通構造を発見し、中核概念 **"Scaling Telemetry Workloads"** として抽出・命名した。 - 制約条件として「運用複雑性の増大を抑える」を統一的に適用: 計測(アプリケーション計装不要)、保存(汎用 DBMS の範囲)、分析(教師なし学習・ハイパーパラメータ頑健性)。 - 予備審査・公聴会(本審査)は各 60 分発表 + 30 分質疑。副査の先生に「博論として 1 本のストーリーがある」と評された。 ### 4. 博士課程 — 振り返り(p.33–50) ![[_attachments/srenext2025/page-035.png]] 博士課程を通じて得られたスキル: 独創性、他の学術分野との接続能力、多層的な言語思考能力。 ![[_attachments/srenext2025/page-039.png]] メンタルモデルの転換: Before「作る側になりたい」→ After「積み重ねていきたい」。 ![[_attachments/srenext2025/page-040.png]] メンタルモデルが「作る側」から「積み重ね続ける」へ転換した。 - 素晴らしい博士論文でも研究業績でもないが、「自分らしいもの」ができあがったと振り返った。 - **楽しさ**: 分野トップの着想に論文を通じて日常的に触れられる、納得するまで取り組める、業務では触れにくい技術(eBPF、AIOps)で遊べる、国内では誰もやっていなさそうなことをやれる感覚。 - **得られたスキル**: (1) 個性や嗜好に基づく独創性、(2) 他の学術分野との接続能力(「テレメトリ」の用語選択等)、(3) 一見バラバラなものを繋ぐ力・膨大な情報の編成力・評価する力。 - **異世界の情報源**: SRE・クラウド分野の論文は SNS で共有されず「異世界化」している。論文ファーストで新規 AI インフラにもキャッチアップできた。 - **生成 AI 時代の意義**: AI が文書やコードを容易に生成できる時代に、知的労働における積み重ねがないことによる虚無感(実存的空虚感)が生じうる。自分の内に体系を 1 本構築する博士課程の体験には意義がある。 - **博士課程進学しなくてもやれること**: (1) 論文を探す・読む、(2) 体系化する(ブログ等)、(3) 論文を実装する(AI により以前より容易に)、(4) 論文を書いてみる。 ## 視覚的に重要な図表 **p.13 博士課程の位置付け** ![[_attachments/srenext2025/page-013.png]] CS とエンジニアリングの交差領域に学術研究(訓練=博士課程)を位置づけた概念図。 **p.30 研究目的: Scaling Telemetry Workloads** ![[_attachments/srenext2025/page-030.png]] 計測→保存→分析の 3 層テレメトリシステムに対し、運用複雑性の増加を抑える条件下でワークロード増大に対して効率的にスケーリングさせるという研究目的の概念図。 **p.65 研究と開発の違い** ![[_attachments/srenext2025/page-065.png]] 知(一般性)×ソフトウェア(固有性)の 2 軸で研究と開発の位置づけを整理した図。 **p.71 博士論文のパターン(独自分類)** ![[_attachments/srenext2025/page-071.png]] Deeper(一点深堀り)・Broader(横に広げる = yuuk1 博論)・Sparser(散点的)の 3 パターン。Matt Might の図を改変。 ## 口頭説明・補足 - 冒頭で Brendan Gregg にサインをもらった喜びを語り、博士論文の参考文献に BPF Performance Tools と Netflix ブログを引用していたことを紹介した。 - 第一研究(HeteroTSDB)では「マネージドサービスがすごいだけでは」という反論への対応として、より普遍的な「DB 製品の選択肢を提供可能なアーキテクチャ」として再定式化する苦労を詳述した。 - 第三研究(MetricSifter)では、SRE NEXT 2022 の発表時点と論文化時点でアルゴリズムが完全に変わっていたことを明かした。 - 博士論文の概念名 "Scaling Telemetry Workloads" は AI に 100 個の候補を出させて選んだ。 - 「オブザーバビリティ」「モニタリング」ではなく「テレメトリ」の用語を選んだのは、工学一般に通用する用語だからだと説明した。 - 博士課程進学しなくてもやれることとして、SRE Lounge Slack の #sre-paper チャンネルでの相談や、論文化の相談・レビューを受け付けていることを案内した。 ## 概念・実体への接続 - [[坪内佑樹]] — 登壇者 - [[さくらインターネット研究所]] — 所属 - [[SRE NEXT]] — 発表カンファレンス - [[HeteroTSDB]] — 第一の研究 - [[MetricSifter]] — 第三の研究 - [[SREの工学化]] — SRE を工学として位置付ける思考の延長 - [[テレメトリ]] — 博士論文の中核概念 - [[特徴量削減]] — 第三の研究の問題領域 ## 限界・不確実点 - YouTube 自動字幕(日本語)は機械精度のため、固有名詞の表記に誤認識がある(「拍手家庭」=博士課程 等)。主張の裏取りはスライド画像で実施。 - 付録の AIOps 試行錯誤の詳細(p.74–78)は「時間の都合上割愛」とされており、口頭説明もない。 - Brendan Gregg へのサイン依頼等の個人的エピソードは transcript でのみ確認。