## 1 Introduction - 本研究が取り組む問題 - クラウドアプリケーションの複雑化 - テレメトリーシステムの必要性 - テレメトリーワークロードが増大 - リソース消費や性能の悪化 - 「テレメトリーワークロードスケーリング」問題に取り組む - 1.1 クラウドアプリケーション:信頼性と障害管理 - クラウドアプリケーションの複雑化 - 基本アーキテクチャ - マイクロサービス - 信頼性の低下 - 一箇所のエラーなどの伝搬性 - ハードウェア・ソフトウェアレベルのフォールトトレラント - Failure - Fault - 変更起因の障害の増加 - 障害管理(論文のintroには未記載) - 1.2 テレメトリシステムとそのワークロード - テレメトリーシステムの必要性。 - テレメトリーの種類。 - テレメトリーシステムは三層構成である。 - 1.3 テレメトリシステムの運用の複雑さ - 展開容易性とメンテナンス容易性。 - 1.4 研究目的と貢献 - リサーチクエスチョン we study effectively scaling large-scale telemetry workloads at the layers of instrumentation, storage, and mining, while minimizing operational overheads. - Overview - 1.4.1 トポロジー指向データの計装 - RQ1と貢献 - 1.4.2 時系列指向の数値データのストレージ - RQ2と貢献 - 1.4.3 時系列指向の数値データのマイニング - RQ3と貢献 - 1.5 研究の貢献 ## 第2章 背景 - 2.1 クラウドアプリケーションのアーキテクチャ - 2.2 クラウドアプリケーションの信頼性 - 2.2.1 信頼性に関する用語 - 2.2.2 サイト信頼性エンジニアリング入門 - 2.2.3 障害耐性 - 2.2.4 インシデント管理ライフサイクル - 2.3 クラウドアプリケーションのためのテレメトリ - 2.3.1 テレメトリデータソース - 2.3.2 テレメトリデータの使用 - 2.3.3 テレメトリシステム - 2.4 テレメトリワークロード - 2.4.1 計装ワークロード - 2.4.2 ストレージワークロード - 2.4.3 マイニングワークロード ## 第3章 ネットワーク呼び出しグラフの継続的構築のためのカーネルにおける効率的なTCP/UDPソケットベースの計装 - 貢献の図解(再掲) - 3.1 はじめに - 3.2 背景 - 3.3 カーネル内フロー集束法 - 3.4 評価 - 3.5 考察 - 3.6 結論 ## 第4章 異種分散KVSにおける自動データ階層化による、スケーラブルで運用可能な時系列データストレージシステム - 貢献の図解(再掲) - 4.1 はじめに - メトリクスストレージの課題 - 既存手法の限界 - 運用の複雑さ - 4.2 時系列データベース - 4.3 異種分散KVSにおける自動データ階層化アーキテクチャ - 4.4 評価 - 4.5 考察 - 4.6 得られた教訓 - 4.7 結論 ## 第5章 自動障害特定のための多変量時系列データの特徴削減 - 5.1 はじめに - 5.2 背景と動機 - 5.3 障害関連メトリクス削減のフレームワーク - 5.4 実験設計とセットアップ - 5.5 シミュレーション研究 - 5.6 マイクロサービスデータに関する実証研究 - 5.7 考察 - 5.8 関連研究 - 5.9 結論 ## 第6章 結論 - 6.1 貢献のまとめ - 各提案手法の主要な貢献 - 技術的新規性 - 6.2 今後の方向性 - Collect-FirstからUse-First戦略へ - LLMの活用 - LLM学習基盤向けテレメトリ ## TODO - メトリクスカーディナリティの記述 => heterotsdb, metricsifter ## 想定質疑 - 他のシステムへの応用性は? - スケーリングという言葉の意味 - MetricSifterの実験結果がわかりにくい。 - TSDBの一貫性の要求は? - eventually consistency(結果整合性) -