# テレメトリ ## 定義 テレメトリ(telemetry)は、システム・アプリケーション・サービスから性能や利用状況のデータを自動で収集し、監視・分析のために遠隔地へ送信する営み。クラウドアプリケーションの信頼性維持(障害管理・性能最適化・キャパシティ計画・セキュリティ監査)を支える基盤であり、その処理は **instrumentation(instrument を埋め込みデータ生成)→ storage(データベースで保持)→ mining(蓄積データから洞察を導出)** の 3 層からなる。([[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]) テレメトリデータは大きく **time-oriented**(metrics=数値時系列、logs=イベントのテキスト記録)と **path-oriented**(traces / call graph=コンポーネント間の処理経路)に分かれる。アプリケーションがスケールすると各層のワークロード(instrumentation overhead・取り込み/保持量・mining の計算量)が増大し、スケーラビリティと運用複雑性低減の両立が課題になる。([[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]) ## 横断的知見 - **wiki の AIOps/SRE ソース群は mining 層に偏在し、その足元の instrumentation/storage 層をこの博士論文が補完する**: [[AIOpsLab]]・[[Bits AI SRE]]・[[SREGym]] 等は telemetry を「読んで」診断する mining 層(detection/localization/RCA/mitigation)の話であり、telemetry がどう生成・保持されるかは前提として扱う。[[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] はその下層——path-oriented データの低オーバーヘッド収集([[分散トレーシング]])と time-oriented データの大規模保持([[時系列データベース]])——を扱い、AIOps が消費するデータの供給側を埋める。(Source: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]], [[2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **「情報を絞る」課題が telemetry の全層を貫く**: 博士論文の設計指針(§6.2)は「データ削減は文脈知識が最も豊富な層=instrumentation(プロセス/ソケット/トランザクションの文脈)と mining(アラート/障害の文脈)の両端で行い、storage は context 非依存に保持へ徹せよ」。これは mining 層で観測された [[特徴量削減]] の有効性(無関係メトリクスを減らすと localization が改善)や、LLM エージェントの telemetry 過剰消費病理([[Bits AI SRE]]/[[AIOpsLab]] §3.6、[[根本原因分析]])と同じ「障害関連シグナルに絞る」骨格を、収集の最上流(instrumentation)にも適用する点で連続する。(Source: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]], [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]]) - **観測 telemetry は一般データと統計的に異なる**: 博士論文は metrics の量を「メトリクス数 × 解像度」で特徴づけ大規模スケール(Slack 12M pt/s 等)を引く。[[Toto]]/[[BOOM]]([[時系列基盤モデル]])は同じ観測 telemetry が非定常・不規則・裾が重いと定量化した。telemetry を「保持する」側(HeteroTSDB)と「予測する」側(TSFM)が、同じ観測データの規模と特異性を別問題として扱っている。(Source: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]], [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]) ## 未解決の問い - 博士論文の future direction「collect-first → use-first」(mining 層から instrumentation/storage へフィードバックする閉ループ)は、AIOps エージェント([[AIOpsLab]]/[[Bits AI SRE]])を mining 層に据えれば実現するか。エージェントの telemetry 利用パターンを収集ポリシーに還流する一次研究はあるか。 - 博士論文の future direction「LLM 向け failure snapshot 生成」は [[特徴量削減]]([[MetricSifter]])や [[根本原因分析]] のノイズ削減と同型の問題。statistical な前処理を LLM エージェントの入力整形に転用する具体手法は何か。 - path-oriented データ(trace/call graph)の mining(trace-based RCA)を扱う一次ソースが wiki に無い。metric 中心の AIOps 群と path 中心の instrumentation をつなぐ trace-based 手法を ingest して横断的知見を厚くする。 ## 関連 - ソース: [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]] / [[2024__IEEE Access__MetricSifter - Feature Reduction of Multivariate Time Series Data for Efficient Fault Localization in Cloud Applications]] / [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] - 概念: [[時系列データベース]] / [[分散トレーシング]] / [[AIOps]] / [[Fault Localization]] / [[特徴量削減]] / [[時系列基盤モデル]] - エンティティ: [[HeteroTSDB]] / [[go-conntracer-bpf]] / [[Mackerel]] - 関連 MOC: [[SRE - MOC]] / [[異常検知 - MOC]] / [[Project AI4SRE - MOC]] ## 出典 - [[2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]](§1.1–1.4 telemetry 3 層と workload、§6.2 設計指針、§6.3 future directions) - [[2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]](観測データの統計的特異性)