# SREのためのテレメトリー技術の探究
[[坪内佑樹]]([[さくらインターネット研究所]])による YAPC::Fukuoka 2025 ゲストセッション(2025-11-14)。SRE のためのテレメトリー技術をメインテーマに、モニタリング SaaS 開発から博士研究、そして今後の探究方向までを一人称の探究の道として共有した 69 枚のスライド資料である。
## 概要
2013 年のはてなでのサーバ管理ツール開発から 2025 年の博士号取得に至る約 12 年間のテレメトリー技術探究を、(1) はじめに(テレメトリーの歴史と位置づけ)、(2) モニタリング SaaS 開発([[Mackerel]])、(3) 博士研究([[Scaling Telemetry Workloads]])、(4) 今後の探究、(5) まとめ、の 5 章構成で展開する。副素材のさくらのナレッジ記事(法林浩之、2025-12-18)は聴講レポートとして本スライドの内容を補足する。
## 主要メッセージ
- **テレメトリーは基礎 of 基礎**: 信頼性がプロダクト・工学の基礎であり、信頼性の基礎はモニタリングであり、モニタリングはテレメトリーにより実現される(p.7)。Ben Treynor Sloss(SRE Book)と [[Michael R. Lyu]](FOSE 2007)を引用。
- **初仕事を親だと思ってしまった(インプリンティング)**: 2013 年のはてなでの Perl / SNMP / RRDtool によるサーバ管理ツール開発が、テレメトリーへの長期的な探究の出発点となった(p.60)。
- **コアコンセプトは Scaling Telemetry Workloads**: 3 つの個別研究(時系列 DB・ネットワークコールグラフ・AIOps)はすべてワークロード増大に対する解決提案であり、計測層(NW 接続数増大→CPU リソース消費削減)・保存層(メトリクス数増大→CPU・I/O リソース消費削減)・分析層(メトリクス数増大→実行時間減・精度増)の 3 層に位置づく(p.38)。
- **今後の探究 4 方向**: (1) テレメトリー界の SDGs(collect-first から use-first へ)、(2) AI for SRE(SRE 特化マルチモーダル基盤モデル)、(3) Observability for AI Systems(GPU クラスタのオブザーバビリティ向上)、(4) Controllability(SLI に基づく自律制御)(p.13, p.41–57)。
- **ポップと学術の狭間**: アラン・ケイの "Computing as Pop Culture" の文脈で、ポップカルチャーを脱して学術と呼べるものへ SRE を押し上げる一方、学術として確立すると面白くなくなるのではという矛盾を認め、アウトプットの積み重ねにより思索を深めていくことを提案する(p.62)。
## 視覚的に重要な図表
**p.3 来歴タイムライン**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-003.png]]
2013 年(はてな・モニタリング SaaS)→ 2019 年(さくらインターネット研究所・SRE)→ 2020 年(京都大学大学院・eBPF・AIOps)→ 2025 年(博士取得・AI スーパーコンピュータ)→ 現在、という探究の変遷を示す。
**p.8 テレメトリー界の大まかな歴史**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-008.png]]
1960 年代の制御工学から 2025 年のゼロコード計装・継続的プロファイリング・LLM オブザーバビリティまでを俯瞰するタイムライン。下帯に UNIX・クラウド・SRE・オブザーバビリティの 4 時代区分を配置する。
**p.13 年表のその先は? — 4 つの今後の方向**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-013.png]]
標準化・ゼロコード計装・継続的プロファイリング・LLM オブザーバビリティの現状トレンドから、(1) テレメトリー界の SDGs、(2) AI for SRE、(3) Observability for AI Systems、(4) Controllability の 4 方向を提示する。
**p.27 第一の研究: 時系列 DB アーキテクチャ**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-027.png]]
メモリベース KVS(Redis)とディスクベース KVS(Cassandra)のハイブリッド構成。Flusher がデータのマイグレーションを担い、ハッシュ表に基づく高速取り込みと SSD/HDD による長期保持コスト低下を両立する。
**p.29 第二の研究: NW コールグラフ**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-029.png]]
ネットワーク通信経路上のいずれかに計測点を設置する。カーネルでの eBPF 計装に着目し、ユーザー空間の App / Proxy とカーネルの Network Stack / NIC / Switch を階層的に示す。
**p.35 特徴量削減の仕組み**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-035.png]]
STEP 1: 時系列ごとに変化点候補を検出。STEP 2: 変化点時間の分布を基にセグメント分割。STEP 3: 最大密度のセグメントを選択(s_max = s_5)。[[MetricSifter]] の中核アルゴリズムを 3 ステップで図示する。
**p.38 博士論文のコアコンセプト**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-038.png]]
3 つの個別研究を「ワークロードの増大に対する解決提案」として統一し、"Scaling Telemetry Workloads" をコアコンセプトとして抽出した図。計測層・保存層・分析層が並列に示される。
**p.43 Collect First から Use First へ**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-043.png]]
計測→保存→分析のパイプラインに、データ利用パターンのフィードバックを追加する。必要なデータのみを収集するように自動適応させたいというテレメトリーパイプライン横断の全体最適化の構想。
**p.46 AI for SRE: AIOps のデータソース拡張**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-046.png]]
Zhang, Lingzhe ら(ACM CSUR 2025)の Fig. 1 より。LLM 以前はメトリクス・ログ・トレースのシステム生成データのみを源としていたが、LLM 以後はドキュメント・コード・アーキテクチャ・Q&A・インシデントレポートなど人間が書いたテキストも含めるようになった。
**p.55 GPU グリッド表示(HPE Clusterview)**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-055.png]]
GPU 電力消費量を HPE Clusterview パネルプラグインで表示した例。ラック→サーバ→GPU の入れ子表現で、社内 HPC 専門家に好評の「脳内イメージに近いビュー」。
**p.60 まとめ: 探究のタイムライン**
![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-060.png]]
現場の運用(2012–2015: 社内 Mackerel / Mackerel SaaS)→ 学術(2020–2025: Scaling Telemetry Workloads / 京都大学博士課程)→ 現場へ適用(2025–: SDGs / LLM for SRE / AI スパコン / 可制御性)の 3 段階を示す。
## 副素材からの補足
さくらのナレッジ記事(法林浩之、2025-12-18)はスライドの内容を以下の点で補足する:
- 「YAPC は企業より個へ焦点」という発表者の私見を「技術カンファレンスが文化現象として持つ意味」と接続。
- 博士研究の統合テーマ(ワークロードスケーラビリティ)を個別研究の列挙ではなく一文で要約。
- 今後の方向の一つとして、さくら ONE の GPU ベアメタルサービスでの HPE Clusterview を用いた電力消費量可視化を挙げる。
## テレメトリー年表(p.9–11)の主要項目
スライドは 1960–2025 年のテレメトリー技術年表を 3 枚にわたって展開する。凡例は OSS(緑)・SaaS(黄)・プロトコル/仕様(青)・論文(赤)・その他(茶)。主要な節目:
- 1960 年代: Observability(Kalman, IFAC)、制御工学
- 1980 年代: Syslog
- 1990 年代: SNMP v1、BPF(USENIX winter)
- 1998–2001: MRTG / RRDtool / sFlow / Zabbix / Nagios
- 2007–2010: X-Trace(NSDI)、Dapper(CACM)、Graphite、NewRelic、Datadog、AppDynamics
- 2011–2013: StatsD / Fluentd / Sensu / OpenTSDB / Zipkin / InfluxDB / KairosDB / eBPF / [[Mackerel]]
- 2014–2015: Prometheus / Grafana / BCC / Gorilla(VLDB)/ Pivot Tracing(SOSP)
- 2016–2019: AIOps / Jaeger / SkyWalking / OpenTracing / gNMI / Honeycomb / OpenMetrics / OpenCensus / Loki / Cortex / VictoriaMetrics / Thanos / M3DB / OpenTelemetry
- 2020–2025: Monarch(VLDB)/ Pyroscope / W3C Trace Context / DeepFlow(SIGCOMM)/ Signoz / VictoriaLogs / OpenLIT / OpenLLMetry / OTeL Profile / OBI
## 概念・実体への接続
- **[[Scaling Telemetry Workloads]]**: 博士論文のコアコンセプト。本スライドはその一般向け解説にあたる。
- **[[テレメトリ]]**: 本スライドが扱う中核概念。テレメトリーの定義、歴史、3 層モデルを一般聴衆に提示。
- **[[SREの工学化]]**: p.69 に「工学としての SRE の定義(2024 年 yuuk1 版)」を掲載。最適化問題としての SRE 定義。
- **[[AIOps]]**: 第三の研究(障害原因特定への ML 適用)と今後の探究(AI for SRE)。
- **[[GPU観測性]]**: さくら ONE における HPE Clusterview、GPU ゼロコード計装の 3 層(CUDA API / ドライバ / GPU 内部)。
- **[[Mackerel]]** / **[[HeteroTSDB]]** / **[[MetricSifter]]**: それぞれモニタリング SaaS 開発・第一の研究・第三の研究の実体。
## 限界・不確実点
- transcript なし(音声/動画は未取得)。口頭説明での補足内容は不明。
- p.9–11 のテレメトリー年表の一部項目(小さい文字のツール名・年号)は画像解像度の制約で読みづらい箇所があるが、主要項目はすべて確認済み。
- p.56 の GPU ゼロコード計装の参照 URL(eunomia.dev 等)はスライド画像から読み取ったものであり、リンク切れの可能性がある。