クラウドのテレメトリーシステム研究動向2025年
クラウドシステムの複雑化に伴い、エンジニアがシステムの利用や動作の状態を把握するためには、より精緻なデータを収集できるテレメトリー技術が必須です。しかし、テレメトリーワークロードの増大により、計算資源の利用効率向上やデータ量削減といったスケーリング技術も同時に必要です。本発表では、「テレメトリーワークロードスケーリング」を主題とした発表者の博士論文を基に、博士論文では詳しく取り扱えなかった最新の研究動向を紹介します。
25分+5分
## アウトライン
- 自己紹介 1分
- はじめに 5分
- テレメトリーの定義
- テレメトリーシステム
- テレメトリーワークロード
- 運用複雑性
- テレメトリーワークロードスケーリング
- 貢献1 3分
- ネットワークコールグラフ
- ネットワークトレースの計装アプローチ
- 既存手法たちとの比較
- 貢献①の概要
- 貢献2 3分
- ストレージの要求
- スケーラビリティ要求
- 既存手法の分類
- [[2008__SIGMOD__OLTP Through the Looking Glass, and What We Found There]]
- 貢献3 3分
- とばす
- 設計:ガイドライン
- 計測層でデータ量を低減するのが後続層すべてに
- 産業界の発展の仕方
- ストレージ層は論文は少ない。プロダクトが多い。
- 最新研究動向
- 計装
- テレメトリーシステムの構成を細分化。
- 計測層 -> {計測, 収集}
- [[99.99% of Your Traces are (Probably) Trash - SREcon24 Americas]]
- トレース:[[Tracing Sampling Papers]]
- ログ:
- [[2017__SOSP__Log20 - Fully Automated Optimal Placement of Log Printing Statements under Specified Overhead Threshold]]
- [[2023__ICSE__LogReducer - Identify and Reduce Log Hotspots in Kernel on the Fly]]
- BPF: [[2023__arXiv__bpftime - userspace eBPF Runtime for Uprobe, Syscall and Kernel-User Interactions]]
- [[bpftime Extending eBPF from Kernel to User Space - eunomia]]
- [[2025__arXiv__bpftime-super - A GPU observability tool]]
- ストレージ
- [[2020__SoCC__ByteSeries - an in-memory time series database for large-scale monitoring systems]]
- [[2024__VLDB__ClickHouse - Lightning Fast Analytics for Everyone]]
- [[2023__VLDB__Lindorm TSDB - A Cloud-native Time-series Database for Large-scale Monitoring Systems]]
- マイニング
- [[インシデント管理からのフィードバックに基づくモニタリングフレームワーク]]
- [[2023__NOMS__Understanding Semantics in Feature Selection for Fault Diagnosis in Network Telemetry Data]]
- [[2024__ESEM__Reducing Events to Augment Log-based Anomaly Detection Models - An Empirical Study]]
- SCALEDFP: [[2024__ICDM__Scaling Disk Failure Prediction via Multi-Source Stream Mining]]
- [[2021__ATC__Jump-Starting Multivariate Time Series Anomaly Detection for Online Service Systems]]
- [[2011__DSN-W__Identifying Faults in Large-Scale Distributed Systems by Filtering Noisy Error Logs]]
- マイニング層から計測層へフィードバック
- [[2024__CLOUD__Self Adjusting Log Observability for Cloud Native Applications]]
- [[2023__NSDI__The Benefit of Hindsight - Tracing Edge-Cases in Distributed Systems]]
- 簡単ではない
- 計測層のデータ量削減により、分析時のモデルに影響がでる可能性がある。
- まとめ (1分)
- [博士論文公聴会: Scaling Telemetry Workloads in Cloud Applications: Techniques for Instrumentation, Storage, and Mining / PhD Defence - Speaker Deck](https://speakerdeck.com/yuukit/phd-defence)
## 関連
- [[2024__SBAC-PADW__The Tracer Files - Cracking the Case of Performance Impact in Tracing Linux File I-O for I-O-Intensive Applications]]
- [[2024__ISSREW__NICSDG - A Non-Intrusive Approach to Constructing Concise Service Dependency Graphs for Microservice Systems]]
---
各論文に共通する関連研究をそれぞれ解説して。
```
# 3つの論文の共通点と差異
## 共通点
1. **対象領域**: すべての論文が分散トレーシングデータの処理とサンプリングに関連しています。特にマイクロサービスアーキテクチャにおけるトレースデータの取り扱いに焦点を当てています。
2. **動機**: 大規模なトレースデータの効率的な処理と、重要な情報を失わないサンプリングの必要性を共通の動機としています。全論文で、単純な一様サンプリングの限界が指摘されています。
3. **トレースデータの特性**: すべての論文がトレースデータの長尾分布(long-tail distribution)の特性に言及し、この特性により少数だが重要なトレースが一様サンプリングで見逃される問題を認識しています。
4. **バイアスサンプリングの提案**: いずれの論文も、単純な一様サンプリングよりも優れた、バイアスのあるサンプリング手法を提案しています。
5. **評価方法**: 実際のマイクロサービス環境やベンチマークアプリケーションでの実験を通じて手法を評価しています。
## 差異
1. **アプローチの焦点**:
- **Sieve (2021)**: 時間的および構造的に珍しいトレースに注目するためのアテンションメカニズムを使用。
- **TraStrainer (2024)**: システムの実行時状態と多様性の両方を考慮したサンプリング手法を提案。
- **STEAM (2023)**: オブザーバビリティを保持するトレースサンプリングに焦点を当て、GNNとドメイン知識を組み合わせたアプローチ。
2. **技術的アプローチ**:
- **Sieve**: Robust Random Cut Forest (RRCF)を使用して異常なトレースを検出。
- **TraStrainer**: グラフニューラルネットワーク(GNN)とロジッククローズを使用し、システム状態と多様性の両方から採取すべきトレースを決定。
- **STEAM**: グラフニューラルネットワーク(GNN)と決定論的点過程(DPP)を組み合わせ、トレース間の相互類似性に基づくサンプリング。
3. **評価指標**:
- **Sieve**: 主に異常トレースの検出率とストレージ削減率に焦点。
- **TraStrainer**: 下流のルート原因分析(RCA)タスクでの精度向上と、カバレッジとエントロピーの両方を測定。
- **STEAM**: カバレッジとエントロピーをオブザーバビリティ保持の主要指標として明示的に定義。
4. **実装の成熟度**:
- **Sieve**: 研究プロトタイプとして実装。
- **TraStrainer**: OpenTelemetryのCollectorコンポーネント内に1.6KのGolangコードと2KのPythonコードで実装。
- **STEAM**: 同様にOpenTelemetryに実装され、実際の本番環境で評価。
5. **発展的特徴**:
- **Sieve (2021)**: 初期のアプローチとして、構造的・時間的な異常に焦点。
- **TraStrainer (2024)**: システム実行時状態という新しい視点を追加し、分散トレースサンプリングの領域を拡張。
- **STEAM (2023)**: 明示的にオブザーバビリティ保持という概念を定義し、それに向けた最適化を行う。
これらの論文は、トレースサンプリングの分野の発展を示しており、時間の経過とともに、単なる異常検出から、システム状態の考慮、そしてより体系的なオブザーバビリティ保持へと焦点が移行していることが伺えます。
```