## 講演タイトル
- SREのためのテレメトリー技術の探究
- SREのためのテレメトリー技術の探究史
- SREのためのテレメトリー探究13年 — 技芸から工学 AIOps/AIインフラ
- SRE向けテレメトリーを探究し続けて13年 — 最先端のAIOps・AIインフラへの研究構想
- 博士の愛したSRE
- テレメトリー探究13年 — SREエンジニアから博士研究者、そしてAI基盤の可観測性へ
- 13年間のテレメトリー探究 — モニタリングの実装からAIOps研究、GPU分散基盤まで
- **SREのためのテレメトリーの13年 — AI for SystemsとSystems for AIとの最前線**
- SREのためのテレメトリーの13年の探究 — AI for SystemsとSystems for AIとの最前線
- SREのためのテレメトリー技術探究13年 — AIOpsとAIインフラの最先端へ
- SREとテレメトリーの探究13年 — 実務と研究の交差、そしてAIOpsとAIインフラへ
- 9+4年
- SREとテレメトリーの13年の探究 — 運用と研究の交差からAIOps・AIインフラまで
- SREとテレメトリーの13年の探究 — モニタリングSaaSからAIOps・AIインフラまで
- SREのためのテレメトリー:13年の探究 — 運用×研究の交差点からAIOps・AIインフラ最前線
- SREとテレメトリーの13年の探究 — 運用×研究の横断とAIOps・AIインフラ最前線
- SREのためのテレメトリー探究への招待
- SREとテレメトリーの13年の探究記 — 運用と研究の交差からAIOps・AIインフラまで
- Telemetry for SRE:運用と研究の交差点からAIOps・AIインフラまでの13年
- SREとテレメトリーに捧げる13年に渡る探究記
- SREとテレメトリーを探究して13年 — 実務と研究の交差点とAIOps/AIインフラの最先端へ
- SREとテレメトリーの探究:モニタリングSaaS、博士研究、AIOps・AIインフラまでの先端領域
- SREとテレメトリーの探究 — 13年に渡る実務と博士研究からAIOps/AIインフラの先端まで
- テレメトリー探究を軸としたSREの13年 — 実務と博士研究からAIOps/AIインフラ最先端まで
- SREとテレメトリー探究の13年 — 実務と博士研究からAIOps/AIインフラ最先端まで
- テレメトリーを中核とした分散システムの観測と制御
- SREとテレメトリーの13年の探究 — 実務と博士研究からAIOps・AIインフラの最先端へ
- SREとテレメトリーを探究して13年 — 実務と博士研究からAIOps・AIインフラ最前線へ
- SREとテレメトリー探究の13年 — 実務と博士研究からAIOps・AIインフラの先端領域へ
- SRE探究の13年 — テレメトリーを軸に実務と博士研究からAIOps・AIインフラまで
- テレメトリー駆動の信頼性制御 ー
- Towards Telemetry-driven Reliability Control
## 講演概要 (800文字以内)
講演者はエンジニアと研究者と立場をかえながらもこれまで一貫してSRE(Site Reliability Engineering)を探究し続けてきました。SREの根幹であるモニタリング・オブザーバビリティのそのさらに基礎であるテレメトリー技術は、信頼性同様に工学一般に通底する概念でありつつも、ソフトウェア工学にしかみられない様々な特性をもつ奥深い領域です。
講演者は、社内向けモニタリングシステムの開発、モニタリングSaaSのシステム設計と運用、時系列データベースの開発、そこから研究開発に転じて、時系列データベース、eBPFに基づくネットワークトレーシング、メトリクスベースのAIOpsなどに取り組み、テレメトリーシステムの研究として博士論文をまとめ、博士学位を取得しました。現在は、多数のGPUから構成される分散AI学習基盤のためのテレメトリーシステムをテーマに研究開発に取り組んでいます。
本講演では、これら実務と学術の経験を振り返りながら、テレメトリーに専門性をもつこととその意味、テレメトリーにおける一般的な歴史と自分史、最新の研究動向を踏まえたテレメトリー領域の未開拓領域と自身が取り組む研究構想を紹介します。
---
講演者は、エンジニアと研究者という異なる立場を歩みながらも、一貫してSRE(Site Reliability Engineering)の探究に取り組んできました。SREの根幹をなすモニタリング・オブザーバビリティ、そしてその基礎であるテレメトリーは、信頼性と同様に工学全般に通底する概念でありながら、ソフトウェアエンジニアリング特有の多様な特性を持つ奥深い研究領域です。
エンジニアとしては、社内向けモニタリングシステムの開発、モニタリングSaaSのシステム設計・運用、時系列データベースの開発に従事してきました。その後、研究者に転身し、時系列データベース、eBPFベースのネットワークトレーシング、機械学習を用いたメトリクス分析のAIOpsなどの研究に取り組み、テレメトリーを主軸に博士論文をまとめ上げて学位を取得しました。現在は、多数のGPUから構成される分散AI学習基盤のためのテレメトリーをテーマとした研究開発に携わっています。
本講演では、これまでの実務経験と学術研究を振り返りながら、テレメトリーを専門とすることの意義とおもしろさ、テレメトリーの一般的な歴史と自分史、そして最新の研究動向を踏まえたテレメトリー分野の未開拓領域と今後の研究構想について紹介いたします。
## アウトライン
- (なぜこの話をするのか?)
- はじめに
- 目に見えないもの
- SREのためのテレメトリー
- テレメトリー技術の要素技術
- 実は非常に多岐にわたる
- 計装、(転送)、保存、分析
- 要素技術
- eBPF、言語ランタイム、分散DB/データパイプライン、可視化/統計・機械学習
- ドメイン:Webアプリケーション、クラウド、ネットワーク、HPC、...
- 目的
- SRE(障害管理とシステム自動制御)、セキュリティ、ユーザー行動分析
- テレメトリー技術の地図をつくること。
- テレメトリーの定義
- なぜテレメトリーという用語を使うのか?
- オブザーバビリティでもいいが...?
- 工学一般に通用する用語を使いたかった。
- (ラーメン発見伝) 引用
- 自分史、100年の歴史、歴史の当事者。
- SREを目的とするテレメトリー技術にどのような可能性が拓かれているのか?
-
- テレメトリーと自分史
- 2012年から2015年 13年
- RRDtool / SNMPからはじまる
- 社内監視ツール 監視というより実はレジストリ
- アルバイト氏たちがPerlで開発
- package Hatena::Mackerel::xxx
-
- 信頼性とテレメトリーの歴史
- [[DICOMO 2022 招待講演アウトライン]]
- [[2007__FOSE__Software Reliability Engineering - A Roadmap]]
- システムトップレベルの目標指標、システムボトムアップ
- テレメトリー技術の体系化
- テレメトリーの未開拓地
- [[2025年度版研究目的]]
- SREの隣接分野におけるテレメトリー
-
- Key messages
- オブザーバビリティを高める => 極論 データを細粒度化・切り口を増やすこと
- 目に見えないものをみる力。理論と計測からメンタルモデルを構築。
- 信頼性とテレメトリーを軸とした専門性とはなにか?
- Webアプリケーションに加えて、クラウド(ネットワークやストレージ)、HPCクラスタなど、領域横断であること。
- 「信頼性」と「テレメトリー」は工学一般に通用する。
- 分野横断の軸をもつことのおもしろさ
- 信頼性もテレメトリーも、対象システムの機序、ワークロードを理解していなければならない。
- テレメトリー技術を専門とするとはどういうことか?
- 未来から時間が流れてくるイメージ
- 最後に [[Ironies of Automation]]
- いかに循環構造を導くか
## 持ち帰れること
- エンジニアにとって見慣れた技術を、学術的視点とWebアプリ以外のシステムを加えた混合的切り口をとおしてみえる世界
-
## 関連資料
- [経営・意思・エンジニアリング by 松本 勇気 \| トーク \| YAPC::Hiroshima 2024 #yapcjapan - fortee.jp](https://fortee.jp/yapc-hiroshima-2024/proposal/a3205912-65d1-4bd0-b3d7-1824747e927a)
- [経営・意思・エンジニアリング - YouTube](https://www.youtube.com/watch?v=wQIKKO0t-ec)
- [Develop to Survive - YAPC::Hakodate 2024 Keynote - Speaker Deck](https://speakerdeck.com/moznion/develop-to-survive-yapc-hakodate-2024-keynote)