## 講演タイトル - SREのためのテレメトリー技術の探究 - SREのためのテレメトリー技術の探究史 - SREのためのテレメトリー探究13年 — 技芸から工学 AIOps/AIインフラ - SRE向けテレメトリーを探究し続けて13年 — 最先端のAIOps・AIインフラへの研究構想 - 博士の愛したSRE - テレメトリー探究13年 — SREエンジニアから博士研究者、そしてAI基盤の可観測性へ - 13年間のテレメトリー探究 — モニタリングの実装からAIOps研究、GPU分散基盤まで - **SREのためのテレメトリーの13年 — AI for SystemsとSystems for AIとの最前線** - SREのためのテレメトリーの13年の探究 — AI for SystemsとSystems for AIとの最前線 - SREのためのテレメトリー技術探究13年 — AIOpsとAIインフラの最先端へ - SREとテレメトリーの探究13年 — 実務と研究の交差、そしてAIOpsとAIインフラへ - 9+4年 - SREとテレメトリーの13年の探究 — 運用と研究の交差からAIOps・AIインフラまで - SREとテレメトリーの13年の探究 — モニタリングSaaSからAIOps・AIインフラまで - SREのためのテレメトリー:13年の探究 — 運用×研究の交差点からAIOps・AIインフラ最前線 - SREとテレメトリーの13年の探究 — 運用×研究の横断とAIOps・AIインフラ最前線 - SREのためのテレメトリー探究への招待 - SREとテレメトリーの13年の探究記 — 運用と研究の交差からAIOps・AIインフラまで - Telemetry for SRE:運用と研究の交差点からAIOps・AIインフラまでの13年 - SREとテレメトリーに捧げる13年に渡る探究記 - SREとテレメトリーを探究して13年 — 実務と研究の交差点とAIOps/AIインフラの最先端へ - SREとテレメトリーの探究:モニタリングSaaS、博士研究、AIOps・AIインフラまでの先端領域 - SREとテレメトリーの探究 — 13年に渡る実務と博士研究からAIOps/AIインフラの先端まで - テレメトリー探究を軸としたSREの13年 — 実務と博士研究からAIOps/AIインフラ最先端まで - SREとテレメトリー探究の13年 — 実務と博士研究からAIOps/AIインフラ最先端まで - テレメトリーを中核とした分散システムの観測と制御 - SREとテレメトリーの13年の探究 — 実務と博士研究からAIOps・AIインフラの最先端へ - SREとテレメトリーを探究して13年 — 実務と博士研究からAIOps・AIインフラ最前線へ - SREとテレメトリー探究の13年 — 実務と博士研究からAIOps・AIインフラの先端領域へ - SRE探究の13年 — テレメトリーを軸に実務と博士研究からAIOps・AIインフラまで - テレメトリー駆動の信頼性制御 ー - Towards Telemetry-driven Reliability Control ## 講演概要 (800文字以内) 講演者はエンジニアと研究者と立場をかえながらもこれまで一貫してSRE(Site Reliability Engineering)を探究し続けてきました。SREの根幹であるモニタリング・オブザーバビリティのそのさらに基礎であるテレメトリー技術は、信頼性同様に工学一般に通底する概念でありつつも、ソフトウェア工学にしかみられない様々な特性をもつ奥深い領域です。 講演者は、社内向けモニタリングシステムの開発、モニタリングSaaSのシステム設計と運用、時系列データベースの開発、そこから研究開発に転じて、時系列データベース、eBPFに基づくネットワークトレーシング、メトリクスベースのAIOpsなどに取り組み、テレメトリーシステムの研究として博士論文をまとめ、博士学位を取得しました。現在は、多数のGPUから構成される分散AI学習基盤のためのテレメトリーシステムをテーマに研究開発に取り組んでいます。 本講演では、これら実務と学術の経験を振り返りながら、テレメトリーに専門性をもつこととその意味、テレメトリーにおける一般的な歴史と自分史、最新の研究動向を踏まえたテレメトリー領域の未開拓領域と自身が取り組む研究構想を紹介します。 --- 講演者は、エンジニアと研究者という異なる立場を歩みながらも、一貫してSRE(Site Reliability Engineering)の探究に取り組んできました。SREの根幹をなすモニタリング・オブザーバビリティ、そしてその基礎であるテレメトリーは、信頼性と同様に工学全般に通底する概念でありながら、ソフトウェアエンジニアリング特有の多様な特性を持つ奥深い研究領域です。 エンジニアとしては、社内向けモニタリングシステムの開発、モニタリングSaaSのシステム設計・運用、時系列データベースの開発に従事してきました。その後、研究者に転身し、時系列データベース、eBPFベースのネットワークトレーシング、機械学習を用いたメトリクス分析のAIOpsなどの研究に取り組み、テレメトリーを主軸に博士論文をまとめ上げて学位を取得しました。現在は、多数のGPUから構成される分散AI学習基盤のためのテレメトリーをテーマとした研究開発に携わっています。 本講演では、これまでの実務経験と学術研究を振り返りながら、テレメトリーを専門とすることの意義とおもしろさ、テレメトリーの一般的な歴史と自分史、そして最新の研究動向を踏まえたテレメトリー分野の未開拓領域と今後の研究構想について紹介いたします。 ## アウトライン - 章構成 - 講演趣旨 - YAPC::Fukuokaのテーマ「きゅう」 => 探究の「究」/ 研究の「究」 - これまでの探究の過程と、総まとめとしての博士研究、これからの探究 1. はじめに (7分) - なぜテレメトリーが必要か? - テレメトリーに関する技術は非常に多岐にわたる - テレメトリーの歴史 - クラウドネイティブでの文脈での概念化(オブザーバビリティ)、標準化と標準実装は進んできたことがわかる - 大きな課題 - テレメトリーコスト問題 - [[99.99% of Your Traces are (Probably) Trash - SREcon24 Americas]] - AI for SRE (AIOps) - OS、ネットワークなどのレイヤとの接続 - AI Systemsに対するオブザーバビリティの確保 - 研究目標の提示 2. 振り返り (10分) - 思い出:研究目標を考えるようになったのか? - キャリアスタートはRRDtoolとSNMP -> 社内Mackerelの開発 - Mackerel Graphite - IPSJ-ONE 2016 ですでに「観測する」「制御工学」への着目 - データベースのスケーラビリティとコスト問題 - 非常に簡単に計測ができるように整備されるため - SRE概念の構築 - SLIという目標変数 3. 博士研究 Scaling Telemetry Workloads (8分) - テレメトリーの定義 - ストレージ層だけでなく、計測層、 - 制御構造をいれたいよね 4. 未開拓領域 (10分) 1. AIOps w/LLM 2. AIスパコン 1. 計装が難しい やることがたくさん 2. 分析も定番が不明 3. 観測から制御・ホメオスタシスへ - サイバネティクス世界観へ - Testing in Production ([[Chaos Engineering]]) への接続 5. むすび (5分) 1. アプリケーションとインフラストラクチャの狭間の横から観測する 2. テレメトリーの難しさ => おもしろさ - 計測対象は多岐にわたるので、大変 <-> 無限に学べる - WebApp、ネットワーク、AIインフラ、LLM Observability、... - 保存層では、分散システム/分散データベース 大変 <-> 無限に学べる - 分析層 - 統計、機械学習の世界で、(無限) - 系の総体を眺めたり、介入したりするのが好き 3. 9年前ぐらいの自分へのメッセージ - 探究したい横断的テーマを発見する。 - いろいろなことを自分に関連付けてとらえる - 学術アプローチ、一見無意味にみえるが、。 - 功利的かつ短期視点以外をもつ - アウトプットの積み重ねにより思索を深めていくことそのものが目的 4. 探究とは、ポップカルチャーを脱して、工学と呼ぶべきものへ。しかし、確立はしてほしくない。その矛盾の只中にいること。 - 軸構成 - 時間 - 過去 -> 未来 - テレメトリー一般の歴史 - ソフトウェア製品の歴史 - 論文の歴史 - 私史 - 未来 -> 過去 - サイバネティクス - 対比 - エンジニア -> 研究者 -> 研究開発エンジニア - ソフトウェア・エンジニアリング vs その他の工学 - 技芸 vs 工学 - 観測 vs 制御 - WebApp vs HPC - 推移 - 計測/計装 -> (配送) -> 保存 -> 分析 - 講演の趣旨 - YAPC::Asia 2013, 2015に登壇して以来の、YAPCの名を冠したカンファレンス登壇です。 - 少々思い出の話が多くなることをご容赦ください。 - テクニカルな詳細よりは、そのときどのように考え、のちにその考えがどのように生かされたか? - この先に何をみているか? - 共感する仲間を見つけたい - はじめに - サイバネティクスってご存知ですか? - サイバネティクスって 1940年代の話なのに、まるで未来の話のようにみえる。 - [[ウィーナー界面はSREに帰着できる]] - 目に見えないもの - SREのためのテレメトリー - テレメトリー技術の要素技術 - 実は非常に多岐にわたる - 計装、(転送)、保存、分析 - 要素技術 - eBPF、言語ランタイム、分散DB/データパイプライン、可視化/統計・機械学習 - ドメイン:Webアプリケーション、クラウド、ネットワーク、HPC、... - 目的 - SRE(障害管理とシステム自動制御)、セキュリティ、ユーザー行動分析 - テレメトリー技術の地図をつくること。 - テレメトリーの定義 - なぜテレメトリーという用語を使うのか? - オブザーバビリティでもいいが...? - 工学一般に通用する用語を使いたかった。 - (ラーメン発見伝) 引用 - 自分史、100年の歴史、歴史の当事者。 - SREを目的とするテレメトリー技術にどのような可能性が拓かれているのか? - - テレメトリーと自分史 - 2012年から2025年 13年 - RRDtool / SNMPからはじまる - 社内監視ツール 監視というより実はレジストリ - アルバイト氏たちがPerlで開発 - package Hatena::Mackerel::xxx - Mackerel開発と運用 - Prometheusはない。Grafanaはあるかないか。 - 時系列データベース - SREの理解 - 信頼性という基本的な機能のうち、テレメトリーがその基礎にある。 - はてなでの経験がベース。 - 信頼性とテレメトリーの歴史 - [[サイバネティックス|Cybernetics]] - [[DICOMO 2022 招待講演アウトライン]] - [[2007__FOSE__Software Reliability Engineering - A Roadmap]] - システムトップレベルの目標指標、システムボトムアップ - テレメトリー技術の体系化 - 計装/計測 - 配送 - 保存 - 分析 - テレメトリーの未開拓地 - [[2025年度版研究目的]] - SREの隣接分野におけるテレメトリー - 博士号を取得したことが大きく関係している - テレメトリーを専門とすることの難しさ - どの分野のエンジニアもテレメトリーには一家言もつことがある - OS、データベース、ストレージ、ネットワーク、Kubernetes、... - 機械学習のように、やっている人とやっていない人がはっきりわかれるものではない - テレメトリーの機械学習適用は(論文では一般的だが)テックコミュニティでは一般的ではない。 - SREconにいくつかある程度 - ツールがすごく多い - OpenTelemetry - Storage - Prometheus,VictoriaMetrics, - Data Lake関連のミドルウェア:Iceberg... - SaaS:Mackerel/DataDog/NewRelic/Splunk... - 計装・計測対象は無数 - Zipkin - GPU - NWスイッチ SNMP/sFlow/ - Key messages - オブザーバビリティを高める => 極論 データを細粒度化・切り口を増やすこと - 目に見えないものをみる力。理論と計測からメンタルモデルを構築。 - 信頼性とテレメトリーを軸とした専門性とはなにか? - Webアプリケーションに加えて、クラウド(ネットワークやストレージ)、HPCクラスタなど、領域横断であること。 - 「信頼性」と「テレメトリー」は工学一般に通用する。 - 分野横断の軸をもつことのおもしろさ - 信頼性もテレメトリーも、対象システムの機序、ワークロードを理解していなければならない。 - 探究とは、ポップカルチャーを脱して、工学と呼ぶべきものへ。しかし、工学としては確立はしてほしくない。その矛盾の只中にいること。 - [[Computing is pop culture]] - 手段として、そのとき精一杯のアウトプットを時間をかけて積み重ねていくこと - 未来から時間が流れてくるイメージ - 最後に [[Ironies of Automation]] - いかに循環構造を導くか ## 持ち帰れること - エンジニアにとって見慣れた技術を、学術的視点とWebアプリ以外のシステムを加えた混合的切り口をとおしてみえる世界 ## 関連資料 - [経営・意思・エンジニアリング by 松本 勇気 \| トーク \| YAPC::Hiroshima 2024 #yapcjapan - fortee.jp](https://fortee.jp/yapc-hiroshima-2024/proposal/a3205912-65d1-4bd0-b3d7-1824747e927a) - [経営・意思・エンジニアリング - YouTube](https://www.youtube.com/watch?v=wQIKKO0t-ec) - [Develop to Survive - YAPC::Hakodate 2024 Keynote - Speaker Deck](https://speakerdeck.com/moznion/develop-to-survive-yapc-hakodate-2024-keynote) ![[Pasted image 20251108011951.png]]を基にする。