@2025__YAPC Fukuoka 2025__SREのためのテレメトリー技術の探究

# SREのためのテレメトリー技術の探究 [[坪内佑樹]]（[[さくらインターネット研究所]]）による YAPC::Fukuoka 2025 ゲストセッション（2025-11-14）。SRE のためのテレメトリー技術をメインテーマに、モニタリング SaaS 開発から博士研究、そして今後の探究方向までを一人称の探究の道として共有した 69 枚のスライド資料である。 ## 概要 2013 年のはてなでのサーバ管理ツール開発から 2025 年の博士号取得に至る約 12 年間のテレメトリー技術探究を、(1) はじめに（テレメトリーの歴史と位置づけ）、(2) モニタリング SaaS 開発（[[Mackerel]]）、(3) 博士研究（[[Scaling Telemetry Workloads]]）、(4) 今後の探究、(5) まとめ、の 5 章構成で展開する。副素材のさくらのナレッジ記事（法林浩之、2025-12-18）は聴講レポートとして本スライドの内容を補足する。 ## 主要メッセージ - **テレメトリーは基礎 of 基礎**: 信頼性がプロダクト・工学の基礎であり、信頼性の基礎はモニタリングであり、モニタリングはテレメトリーにより実現される（p.7）。Ben Treynor Sloss（SRE Book）と [[Michael R. Lyu]]（FOSE 2007）を引用。 - **初仕事を親だと思ってしまった（インプリンティング）**: 2013 年のはてなでの Perl / SNMP / RRDtool によるサーバ管理ツール開発が、テレメトリーへの長期的な探究の出発点となった（p.60）。 - **コアコンセプトは Scaling Telemetry Workloads**: 3 つの個別研究（時系列 DB・ネットワークコールグラフ・AIOps）はすべてワークロード増大に対する解決提案であり、計測層（NW 接続数増大→CPU リソース消費削減）・保存層（メトリクス数増大→CPU・I/O リソース消費削減）・分析層（メトリクス数増大→実行時間減・精度増）の 3 層に位置づく（p.38）。 - **今後の探究 4 方向**: (1) テレメトリー界の SDGs（collect-first から use-first へ）、(2) AI for SRE（SRE 特化マルチモーダル基盤モデル）、(3) Observability for AI Systems（GPU クラスタのオブザーバビリティ向上）、(4) Controllability（SLI に基づく自律制御）（p.13, p.41–57）。 - **ポップと学術の狭間**: アラン・ケイの "Computing as Pop Culture" の文脈で、ポップカルチャーを脱して学術と呼べるものへ SRE を押し上げる一方、学術として確立すると面白くなくなるのではという矛盾を認め、アウトプットの積み重ねにより思索を深めていくことを提案する（p.62）。 ## 視覚的に重要な図表 **p.3 来歴タイムライン** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-003.png]] 2013 年（はてな・モニタリング SaaS）→ 2019 年（さくらインターネット研究所・SRE）→ 2020 年（京都大学大学院・eBPF・AIOps）→ 2025 年（博士取得・AI スーパーコンピュータ）→ 現在、という探究の変遷を示す。 **p.8 テレメトリー界の大まかな歴史** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-008.png]] 1960 年代の制御工学から 2025 年のゼロコード計装・継続的プロファイリング・LLM オブザーバビリティまでを俯瞰するタイムライン。下帯に UNIX・クラウド・SRE・オブザーバビリティの 4 時代区分を配置する。 **p.13 年表のその先は？ — 4 つの今後の方向** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-013.png]] 標準化・ゼロコード計装・継続的プロファイリング・LLM オブザーバビリティの現状トレンドから、(1) テレメトリー界の SDGs、(2) AI for SRE、(3) Observability for AI Systems、(4) Controllability の 4 方向を提示する。 **p.27 第一の研究: 時系列 DB アーキテクチャ** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-027.png]] メモリベース KVS（Redis）とディスクベース KVS（Cassandra）のハイブリッド構成。Flusher がデータのマイグレーションを担い、ハッシュ表に基づく高速取り込みと SSD/HDD による長期保持コスト低下を両立する。 **p.29 第二の研究: NW コールグラフ** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-029.png]] ネットワーク通信経路上のいずれかに計測点を設置する。カーネルでの eBPF 計装に着目し、ユーザー空間の App / Proxy とカーネルの Network Stack / NIC / Switch を階層的に示す。 **p.35 特徴量削減の仕組み** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-035.png]] STEP 1: 時系列ごとに変化点候補を検出。STEP 2: 変化点時間の分布を基にセグメント分割。STEP 3: 最大密度のセグメントを選択（s_max = s_5）。[[MetricSifter]] の中核アルゴリズムを 3 ステップで図示する。 **p.38 博士論文のコアコンセプト** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-038.png]] 3 つの個別研究を「ワークロードの増大に対する解決提案」として統一し、"Scaling Telemetry Workloads" をコアコンセプトとして抽出した図。計測層・保存層・分析層が並列に示される。 **p.43 Collect First から Use First へ** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-043.png]] 計測→保存→分析のパイプラインに、データ利用パターンのフィードバックを追加する。必要なデータのみを収集するように自動適応させたいというテレメトリーパイプライン横断の全体最適化の構想。 **p.46 AI for SRE: AIOps のデータソース拡張** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-046.png]] Zhang, Lingzhe ら（ACM CSUR 2025）の Fig. 1 より。LLM 以前はメトリクス・ログ・トレースのシステム生成データのみを源としていたが、LLM 以後はドキュメント・コード・アーキテクチャ・Q&A・インシデントレポートなど人間が書いたテキストも含めるようになった。 **p.55 GPU グリッド表示（HPE Clusterview）** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-055.png]] GPU 電力消費量を HPE Clusterview パネルプラグインで表示した例。ラック→サーバ→GPU の入れ子表現で、社内 HPC 専門家に好評の「脳内イメージに近いビュー」。 **p.60 まとめ: 探究のタイムライン** ![[_attachments/yapcfukuoka2025-telemetry-for-sre/page-060.png]] 現場の運用（2012–2015: 社内 Mackerel / Mackerel SaaS）→ 学術（2020–2025: Scaling Telemetry Workloads / 京都大学博士課程）→ 現場へ適用（2025–: SDGs / LLM for SRE / AI スパコン / 可制御性）の 3 段階を示す。 ## 副素材からの補足さくらのナレッジ記事（法林浩之、2025-12-18）はスライドの内容を以下の点で補足する: - 「YAPC は企業より個へ焦点」という発表者の私見を「技術カンファレンスが文化現象として持つ意味」と接続。 - 博士研究の統合テーマ（ワークロードスケーラビリティ）を個別研究の列挙ではなく一文で要約。 - 今後の方向の一つとして、さくら ONE の GPU ベアメタルサービスでの HPE Clusterview を用いた電力消費量可視化を挙げる。 ## テレメトリー年表（p.9–11）の主要項目スライドは 1960–2025 年のテレメトリー技術年表を 3 枚にわたって展開する。凡例は OSS（緑）・SaaS（黄）・プロトコル/仕様（青）・論文（赤）・その他（茶）。主要な節目: - 1960 年代: Observability（Kalman, IFAC）、制御工学 - 1980 年代: Syslog - 1990 年代: SNMP v1、BPF（USENIX winter） - 1998–2001: MRTG / RRDtool / sFlow / Zabbix / Nagios - 2007–2010: X-Trace（NSDI）、Dapper（CACM）、Graphite、NewRelic、Datadog、AppDynamics - 2011–2013: StatsD / Fluentd / Sensu / OpenTSDB / Zipkin / InfluxDB / KairosDB / eBPF / [[Mackerel]] - 2014–2015: Prometheus / Grafana / BCC / Gorilla（VLDB）/ Pivot Tracing（SOSP） - 2016–2019: AIOps / Jaeger / SkyWalking / OpenTracing / gNMI / Honeycomb / OpenMetrics / OpenCensus / Loki / Cortex / VictoriaMetrics / Thanos / M3DB / OpenTelemetry - 2020–2025: Monarch（VLDB）/ Pyroscope / W3C Trace Context / DeepFlow（SIGCOMM）/ Signoz / VictoriaLogs / OpenLIT / OpenLLMetry / OTeL Profile / OBI ## 概念・実体への接続 - **[[Scaling Telemetry Workloads]]**: 博士論文のコアコンセプト。本スライドはその一般向け解説にあたる。 - **[[テレメトリ]]**: 本スライドが扱う中核概念。テレメトリーの定義、歴史、3 層モデルを一般聴衆に提示。 - **[[SREの工学化]]**: p.69 に「工学としての SRE の定義（2024 年 yuuk1 版）」を掲載。最適化問題としての SRE 定義。 - **[[AIOps]]**: 第三の研究（障害原因特定への ML 適用）と今後の探究（AI for SRE）。 - **[[GPU観測性]]**: さくら ONE における HPE Clusterview、GPU ゼロコード計装の 3 層（CUDA API / ドライバ / GPU 内部）。 - **[[Mackerel]]** / **[[HeteroTSDB]]** / **[[MetricSifter]]**: それぞれモニタリング SaaS 開発・第一の研究・第三の研究の実体。 ## 限界・不確実点 - transcript なし（音声/動画は未取得）。口頭説明での補足内容は不明。 - p.9–11 のテレメトリー年表の一部項目（小さい文字のツール名・年号）は画像解像度の制約で読みづらい箇所があるが、主要項目はすべて確認済み。 - p.56 の GPU ゼロコード計装の参照 URL（eunomia.dev 等）はスライド画像から読み取ったものであり、リンク切れの可能性がある。