@2021__SIGMOD Record__Towards Observability Data Management at Scale

> [!abstract] 概要(abstract の日本語訳) > オブザーバビリティは今日の大規模ソフトウェアシステムとサービスにおける重要な能力として注目されている。Slack での産業経験を動機とし、データベース研究への問いかけとして、本論文はこの新興ワークロードを大規模に扱うオブザーバビリティデータ管理システム(ODMS)の設計・構築に関わる課題と機会を概観する。 ## 論文情報 - **タイトル**: Towards Observability Data Management at Scale - **著者**: Suman Karumuri(Slack Technologies)、Franco Solleza・Stan Zdonik(Brown University)、Nesime Tatbul(Intel Labs and MIT) - **媒体**: SIGMOD Record, December 2020 (Vol. 49, No. 4) / DOI: 10.1145/3456859.3456863 - **発行年**: 2021（DOI 収録年） - **論文種別**: ビジョン/経験論文（産業事例を題材とした研究課題提起） ## 概要 Slack の 2020 年 5 月 12 日の完全サービス停止インシデントを起点に、オブザーバビリティをデータ管理問題として定式化する。Metrics・Events・Logs・Traces(MELT)という 4 種の異種時系列データが独立したツール群で管理されてきた現状を分析し、大規模 ODMS 構築の設計原則と新アーキテクチャのブループリントを提示するビジョン論文。 **Figure 1: 図** ![[_attachments/1-3456859.3456863/fig1-figure.png]] (Figure 1. Observability を示す。) **Table 1: 表** ![[_attachments/1-3456859.3456863/table1-table.png]] (Table 1. 論文中の主要な表を示す。) **Figure 4: 図** ![[_attachments/1-3456859.3456863/fig4-figure.png]] (Figure 4. Log entry を示す。) **Table 2: 表** ![[_attachments/1-3456859.3456863/table2-table.png]] (Table 2. 論文中の主要な表を示す。) **Figure 2: 図** ![[_attachments/1-3456859.3456863/fig2-figure.png]] (Figure 2. Metric for number of HTTP requests/second を示す。) ## 問題設定 - **入力**: クラウドネイティブシステムが実行時に生成する MELT データ（不変・追記型・大量・バースト性） - **出力**: 近リアルタイムの洞察（time to insight の最小化） - **前提**: DevOps チームが人間参加型でシステムの「何が・なぜ起きているか」を理解する必要がある - **問題**: 既存 ODMS は MELT の各型に特化したツールの寄せ集め(パッチワーク)で、統一したデータライフサイクル管理・クエリインタフェースを持たない ## MELT データ分類(§2) 論文の中核的貢献の一つ。4 データ型の特性を Table 1 で整理している。 | 型 | データ | クエリ | ストレージ | Slack 規模 | 保持期間 | |---|---|---|---|---|---| | Metrics | 数値(カウンタ/ゲージ/ヒストグラム) + tags | 集計・メタデータフィルタ | 圧縮時系列 + ハイブリッドカラム | 4B 系列/日・12M samples/秒・12TB/日(圧縮) | 30 日 | | Events | 高度構造化文字列またはバイナリ | 正確な文字列一致フィルタ | カラムストア | 250TB/日(生)、70PB 超を蓄積 | 3〜24 ヶ月 | | Logs | 半構造化〜非構造化文字列 | 近似文字列検索 | 転置インデックス | 90TB/日(生) | 7 日 | | Traces | DAG（実行経路） | 分離グラフ検索 | カラム/転置インデックス | 2TB/日(生) | 14 日 | - Metrics はカウンタ(単調増加)・ゲージ(増減可)・ヒストグラム(観測値の分布)の 3 型を含む - Events は従来 Logs のサブカテゴリとして扱われてきたが、データモデル・クエリ・アクセスパターンが Logs と本質的に異なるため独立した類型として扱う - Traces は DAG 表現で Lamport の happens-before 順序を用い、OpenTelemetry が業界標準として整備中 ### MELT の共通特性 - **データ特性**: 全型とも不変・追記型。動的分散環境のバースト性により取り込み量が一時的に 10 倍に跳ね上がる - **鮮度バイアス**: Table 2 より、クエリの 97% 超が直近 24 時間以内のデータを対象とする（Logs 92.5%→99.8%@<24h、Metrics 94.7%→99.8%、Traces 85.2%→97.3%） - **ライフサイクル管理**: 鮮度バイアスがある一方、少数クエリは長期トレンド・法的目的で古いデータを要求する。世代別ストレージ戦略が必要 ## Slack の現行 ODMS(§3) ### インフラ構成 Prometheus(メトリクス)・Apache Kafka → S3 → Presto(ELT 歴史クエリ)・Elasticsearch(ログ・トレース)・Logstash・内製トレースストアで構成される 20 以上のソフトウェアコンポーネント。各コンポーネントは独自アーキテクチャを持ち、クラスタ管理・セキュリティ・容量計画がそれぞれ異なる。 - Prometheus はシングルノードで高可用性のため独立コピーを 100 プールほど運用 - ELT は Presto でデュプリケートして処理——可用性とのトレードオフでコストが増大 ### 3 課題 1. **高い運用複雑性**: 20 超コンポーネント、異種アーキテクチャ。インシデント時に取り込み量が 4 倍に跳ね上がる場面での複雑なスケールアップ操作が必要 2. **低クエリレイテンシの維持困難**: 97% の鮮度バイアスの下、ダッシュボード・アラートはサブ秒レイテンシを要求。インシデント時には通常の 2 倍のユーザー数で過去 8 時間分を参照する 3. **高いインフラコスト**: ピーク時に 2 倍プロビジョニング、ELT の二重処理。新しいピーク負荷が旧ピークの 2 倍になりプロビジョニング戦略そのものがコストを積み増す ## ODMS 設計原則(§4) **原則 1: リアルタイムと履歴データ管理の分離** - MELT ワークロードは HTAP(OLTP + OLAP)とは異なる。バースト性の大量不変書き込みと 97% 超の鮮度バイアスを前提とし、リアルタイム取り込みと歴史アクセスを独立して管理する - 利点: 高取り込み率・低クエリレイテンシ・歴史データの低コスト保持の三者を分離して最適化できる **原則 2: MELT ライフサイクル統合** - 時間軸がすべての MELT データを共通フレームワークで束ねる。データ年齢に基づくライフサイクル管理で、リアルタイムから歴史ストレージへの移動を抽象化する **原則 3: MELT 単一クエリインタフェース** - オブザーバビリティクエリは複数の MELT 型にまたがる（例: 特定の異常がメトリクス・ログ・トレースのどれで現れるか）。単一インタフェースで横断クエリを可能にし、ストレージ最適化の機会を提供する **原則 4: クラウドネイティブ分散配置** - 読み書きのバースト性に対応するため、各層はデフォルトで分散・弾力的に設計する。コストとパフォーマンスのトレードオフを柔軟に調整できるクラウドネイティブ配置 ## 提案アーキテクチャ(§4) Lambda アーキテクチャでなく**ポリストアアーキテクチャ**に影響を受ける統合設計。 ``` 計装アプリ → Replicated Log Service(Kafka 等) ↓ Real-Time Indexing(型別ストレージエンジン) ↓ (定期移行) Persistent Storage(S3 等) ↕ Hot Data Cache(歴史データの高速アクセス層) ↑ Query Engine + Metadata Store + Cluster Manager ``` - **Cluster Manager**: Real-Time Indexing の負荷を監視し、書き込みバースト時には Indexing を、歴史データの重いクエリ時には Hot Data Cache をスケールアップ - **Query Engine**: Real-Time Indexing・Persistent Storage・Hot Data Cache を透明に横断。時間範囲フィルタでデータ配置を決定し、アドホッククエリが反復される場合は Hot Data Cache へコピーしてレイテンシを低減 - **Hot Data Cache**: アクセスパターンベースの弾力的な層。ピーク読み込み時に独立スケール可能この設計により Slack の May 12 相当のインシデント時でも、単一クエリインタフェースと統一 MELT ビューを維持できる。プロトタイプ実装を Slack の本番データで検証中（論文時点）。 ## 新規性 - 2021 年時点でオブザーバビリティを「データ管理問題」として最初に体系的に定式化したビジョン論文 - MELT の 4 型分類を Slack の定量データ（表 1・表 2）で裏付けた産業論文 - Events を Logs のサブカテゴリとして扱う従来の慣行に疑問を呈し、独立した型として分離する主張 - 既存のポリストア研究（BigDAWG 等）をオブザーバビリティドメインに適用する方向性を示した ## 強み・弱点・課題 ### 強み - Slack の実測データ(表 1・表 2)に基づく具体的な定量化 - MELT の各型の特性を丁寧に整理し、なぜ統一が困難かを説明している - ビジョン論文として研究コミュニティへの問題提起が明確 ### 弱点・課題 - プロトタイプ実装はあるが本番評価なし（ビジョン論文の性質上） - 実装の具体的な技術的詳細（圧縮方式、クエリオプティマイザ等）は論文スコープ外 - MELT の 4 分類は Slack 視点であり、ネットワークテレメトリ(フロー等)は含まない - 2021 年以降、LLM エージェントが ODMS に接続する際の意味的ギャップ（[[UModel]] が定義した「死んだトークン」問題）は未考慮 ## 関連 - ソース: [[@2026__arXiv__UModel - An Agent-Ready Observability Data Modeling Method at Scale]](本ビジョンを 2026 年に大規模実証) - 概念: [[テレメトリ]] / [[オブザーバビリティデータモデル]] / [[時系列データベース]] / [[分散トレーシング]] - エンティティ: [[Suman Karumuri]] / [[Franco Solleza]] / [[Stan Zdonik]] / [[Nesime Tatbul]] / [[Slack Technologies]] / [[Brown University]] / [[OpenTelemetry]] / [[Prometheus]] ## 出典 - PDF 本文: `.raw/papers/1-3456859.3456863.pdf` (Table 1, Table 2, §2–§4 全節) - DOI: 10.1145/3456859.3456863