## 1 Introduction
- 本研究が取り組む問題
- クラウドアプリケーションの複雑化
- テレメトリーシステムの必要性
- テレメトリーワークロードが増大
- リソース消費や性能の悪化
- 「テレメトリーワークロードスケーリング」問題に取り組む
- 1.1 クラウドアプリケーション:信頼性と障害管理
- クラウドアプリケーションの複雑化
- 基本アーキテクチャ
- マイクロサービス
- 信頼性の低下
- 一箇所のエラーなどの伝搬性
- ハードウェア・ソフトウェアレベルのフォールトトレラント
- Failure - Fault
- 変更起因の障害の増加
- 障害管理(論文のintroには未記載)
- 1.2 テレメトリシステムとそのワークロード
- テレメトリーシステムの必要性。
- テレメトリーの種類。
- テレメトリーシステムは三層構成である。
- 1.3 テレメトリシステムの運用の複雑さ
- 展開容易性とメンテナンス容易性。
- 1.4 研究目的と貢献
- リサーチクエスチョン
we study effectively scaling large-scale telemetry workloads at the layers of instrumentation, storage, and mining, while minimizing operational overheads.
- Overview
- 1.4.1 トポロジー指向データの計装
- RQ1と貢献
- 1.4.2 時系列指向の数値データのストレージ
- RQ2と貢献
- 1.4.3 時系列指向の数値データのマイニング
- RQ3と貢献
- 1.5 研究の貢献
## 第2章 背景
- 2.1 クラウドアプリケーションのアーキテクチャ
- 2.2 クラウドアプリケーションの信頼性
- 2.2.1 信頼性に関する用語
- 2.2.2 サイト信頼性エンジニアリング入門
- 2.2.3 障害耐性
- 2.2.4 インシデント管理ライフサイクル
- 2.3 クラウドアプリケーションのためのテレメトリ
- 2.3.1 テレメトリデータソース
- 2.3.2 テレメトリデータの使用
- 2.3.3 テレメトリシステム
- 2.4 テレメトリワークロード
- 2.4.1 計装ワークロード
- 2.4.2 ストレージワークロード
- 2.4.3 マイニングワークロード
## 第3章 ネットワーク呼び出しグラフの継続的構築のためのカーネルにおける効率的なTCP/UDPソケットベースの計装
- 貢献の図解(再掲)
- 3.1 はじめに
- 3.2 背景
- 3.3 カーネル内フロー集束法
- 3.4 評価
- 3.5 考察
- 3.6 結論
## 第4章 異種分散KVSにおける自動データ階層化による、スケーラブルで運用可能な時系列データストレージシステム
- 貢献の図解(再掲)
- 4.1 はじめに
- メトリクスストレージの課題
- 既存手法の限界
- 運用の複雑さ
- 4.2 時系列データベース
- 4.3 異種分散KVSにおける自動データ階層化アーキテクチャ
- 4.4 評価
- 4.5 考察
- 4.6 得られた教訓
- 4.7 結論
## 第5章 自動障害特定のための多変量時系列データの特徴削減
- 5.1 はじめに
- 5.2 背景と動機
- 5.3 障害関連メトリクス削減のフレームワーク
- 5.4 実験設計とセットアップ
- 5.5 シミュレーション研究
- 5.6 マイクロサービスデータに関する実証研究
- 5.7 考察
- 5.8 関連研究
- 5.9 結論
## 第6章 結論
- 6.1 貢献のまとめ
- 各提案手法の主要な貢献
- 技術的新規性
- 6.2 今後の方向性
- Collect-FirstからUse-First戦略へ
- LLMの活用
- LLM学習基盤向けテレメトリ
## TODO
- メトリクスカーディナリティの記述 => heterotsdb, metricsifter
## 想定質疑
- 他のシステムへの応用性は?
- スケーリングという言葉の意味
- MetricSifterの実験結果がわかりにくい。
- TSDBの一貫性の要求は?
- eventually consistency(結果整合性)
-