multimodal-observability-foundation-model

# オブザーバビリティデータをマルチモーダル事前学習する基盤モデルの設計 ## 設問オブザーバビリティデータ(メトリクス・ログ・トレース)の特性と、Transformer・時系列基盤モデル(TSFM)に関する各種文献を wiki から参照したうえで、それらをマルチモーダルに学習する基盤モデル(MELT-FM)を新規に考案する。 ## 設計の前提(wiki 由来の制約) ### オブザーバビリティデータの特性 - **5 シグナル**(メトリクス・ログ・トレース・プロファイル・ダンプ)が CNCF Whitepaper 2023 で公式化、Karumuri+ 2021 はさらに Events を独立分類として分離した。([[オブザーバビリティ]], [[@2023__CNCF TAG Observability__Observability Whitepaper]], [[@2021__SIGMOD Record__Towards Observability Data Management at Scale]]) - 直交する 2 分類: **time-oriented**(メトリクス/ログ)と **path-oriented**(トレース/コールグラフ)。([[テレメトリ]], [[@2025__Kyoto University__Scaling Telemetry Workloads in Cloud Applications - Techniques for Instrumentation, Storage, and Mining]]) - **統計的特異性**: 観測テレメトリは非定常・不規則・裾が重い。[[Toto]]/[[BOOM]] が定量化した。([[時系列基盤モデル]]) - **「正常な急変動」**(ストリーミング起因の TX_Bytes スパイク等)が既存 TSFM に偽陽性を誘発する。([[TelecomTS]]) - **絶対スケールが性能を決定的に左右**: NME(Numerically Multi-scaled Embedding)の追加で異常検知 F1 +0.401 等を全モデル・全タスクで一貫して向上。([[TelecomTS]]) - **鮮度バイアス**: クエリ 97% 超が <24h(Karumuri+ 2021 表 2)。リアルタイム層と履歴層の独立最適化が正当化される。 - **意味の欠如**: `node_cpu_seconds_total` は LLM にとって単位・型・用途不明な文字列。PromQL 直接生成精度 GPT-4-Turbo で 2.6%。([[UModel]]) ### モダリティ-タスク親和性(マルチモーダル障害診断) - トレース→RCL 強・FTI 弱、メトリクス→RCL 強・FTI 中、ログ→RCL 弱・FTI 強。([[マルチモーダル障害診断]], [[TVDiag]]) - **等価融合は希釈を起こす**(DiagFusion HR@1=0.205 対トレース単独 0.435)。 - **アライメントが律速**(TAMO: T1 拡散アライメント除去で Acc@1 −28pt)。 - **ビュー不変情報**が対照学習で抽出可能。([[TVDiag]]) - 変更票を第 4 モダリティに加える設計が変更起因 RCA を可能にする。([[SCELM]]) ### TSFM/Transformer 文献の到達点 - アーキテクチャ: **decoder-only**([[Toto]]・[[TimesFM]]・Time-MoE)vs **encoder-only**([[Falcon-X]])。観測特化路線は decoder-only + Student-T 混合 + causal scaling。 - **多変量化**: [[Chronos-2]] の **Group Attention** が $O(V^2) \to O(V)$、3 モード(単変量/多変量/共変量付き)を同一アーキテクチャで切替。 - **多解像度入力**: [[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]] が粗 1h + 細 1m を連結し既存 TSFM に継続事前学習(CPT)。 - **スケーリング則確立**: [[Toto]] 2.0 が 4M〜2.5B で単調改善、観測 TSFM の GPT-2 モーメント。 - **量子化トークン化**: [[@2024__arXiv__Chronos Learning the Language of Time Series|Chronos]] は値を 4096 ビン分類問題に。LLM 事前知識の転移は無効と判明。 - **推論時最適化**: [[SPRINT]] のダウンサンプリング、Toto 2.0 の [[Contiguous Patch Masking]]。 - **マルチモーダル LLM ハイブリッド**: [[ARFBench]] で Toto 埋め込みを VLM 空間へ射影し TSQA SOTA。 ## 既存研究の「未踏交差点」 | 系統 | M | L | T | スケール保持 | 意味付け | タスク横断 | |---|---|---|---|---|---|---| | [[Toto]] / [[Falcon-X]] / [[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]] | ✓ | ✗ | ✗ | △ | ✗ | 予測のみ | | [[TVDiag]] / [[TAMO]] / [[SCELM]] | ✓ | ✓ | ✓ | ✗ | ✗ | 診断のみ | | ARFBench (Toto-QA) | ✓ | ✗ | ✗ | △ | △ | QA | | [[UModel]] | ✓ | ✓ | ✓ + Events | — | ✓ | データ層 | **空席**は、M/L/T を同時にネイティブ事前学習し、スケールと意味を保持したまま、予測・異常検知・RCA・TSQA を一基盤で支える TSFM。 ## 提案: MELT-FM(Metrics-Events-Logs-Traces Foundation Model) [[Toto]] 系のテレメトリ予測力、[[TVDiag]]/[[TAMO]] 系のモダリティ整合、[[Chronos-2]] の Group Attention、[[UModel]] の意味グラウンディングを一本に統合した観測ドメインのマルチモーダル基盤モデル。 ### 三本柱に対応するモダリティネイティブ・トークナイザ各シグナルの構造をテキスト化で潰さず、専用エンコーダで低次元トークン列に射影してから共有 Transformer に渡す。 | モダリティ | トークナイザ | 根拠 | |---|---|---| | **メトリクス** | パッチ化([[Toto]]/[[TimesFM]] 流、可変パッチ長 P∈{8,16,64})+ NME 並列ブランチでパッチ平均・標準偏差を別トークンとして連結 | [[TelecomTS]]: スケール情報追加で全モデル/全タスク向上 | | **ログ** | ログ署名 ID([[ログパース]] の Drain3/LogReducer)→ vocab、テンプレ変数は別チャネル。生テキストは通さない | OpsAgent の training-free テキスト変換が拙速、署名は構造を保つ | | **トレース** | スパン木を (parent_id, service, op, duration_patch, status) タプルのトポロジカル順列に。木構造は相対位置符号化で保持 | [[トレース品質]]・Tracezip の SRT 圧縮表現を参考、TVDiag のグラフ表現を一段抽象化 | | **Events**(4th) | 高度構造化カテゴリカルなので直積埋め込み(method × status × resource) | Karumuri+ 2021: Events は Logs と本質的に異なる | | **メタ層(UModel グラウンディング)** | EntitySet 識別子と EntitySetLink を特別トークンとして全モダリティに前置 | [[UModel]]: 意味付与が RCA 精度 +8% | ログとメトリクスを Chronos 流に同じ離散ボキャブラリで結合する手は誘惑的だが、Chronos 論文が「LLM 重み初期化の転移は有効でない」と示した通り、異種モダリティを 1 vocab に押し込んでも事前知識の転移は起きない。専用エンコーダ + 共有 latent が現実解。 ### アーキテクチャ: 4 因子ファクター化アテンション [[Falcon-X]] が「時間 × 変量」を分離し、[[Chronos-2]] が「時間 × グループ」を分離した路線を 4 軸に拡張する: ``` Block = TimeAttn ∘ VariateGroupAttn ∘ PathAttn ∘ ModalityAttn (Toto 因) (Chronos-2 流 O(V)) (新規: span tree) (新規: 4 モダ間) ``` - **TimeAttn**: パッチ系列上、causal で次パッチ予測(Toto と共通)。 - **VariateGroupAttn**: Chronos-2 の Group Attention をそのまま借用、$O(V)$ で 1 サービスあたり数百メトリクスまでスケール。 - **PathAttn**: トレース木の親子・兄弟関係を相対位置として持つ。ログ・メトリクスもサービス ID 単位でこの軸に参加することで、テレメトリと因果トポロジを 1 構造で扱う。TVDiag の GNN が学習する依存グラフを Transformer 内で陽に符号化する案。 - **ModalityAttn**: 4 モダリティ間の cross-attention。各モダリティのトークンは同一サービス/同一時間スロットでまとめて attend。TVDiag が示した「タスク-モダリティ嗜好」をハードコードせず、ヘッド単位での疎ルーティング([[@2025__ICLR__Time-MoE - Billion-Scale Time Series Foundation Models with Mixture of Experts|Time-MoE]] の MoE FFN 流)で実装し、RCL/FTI で異なるルーティングを学習させる。ファクター化はモデルサイズが小さくてもアブレーション可能性を保ち、[[TVDiag]]/[[TAMO]] で観察された「アライメント除去で −28pt」のような切れ味のある事後分析を保証する。 ### 事前学習目的関数: 4 目的の同時最適化 | 目的 | 由来 | 役割 | |---|---|---| | ① 次パッチ予測(Student-T mixture NLL) | [[Toto]] | 確率的予測(CRPS 較正) | | ② [[Contiguous Patch Masking]] | Toto 2.0 | シングルパス推論の効率化 | | ③ Cross-Modal View-Invariant Contrastive | [[TVDiag]] | 同一インシデント窓の M/L/T 表現を引き寄せる | | ④ Cross-Modal Masked Reconstruction | [[TAMO]] の拡散の置換 | ログを与えてメトリクスを再構成(およびその逆)。生成的アライメントを diffusion でなく masked autoencoding で軽量化 | TVDiag は「タスク指向損失」をハードコードしたが、MELT-FM は嗜好を学習する自由度を残し、嗜好の発現を post-training に委ねる。 ### 事前学習データ戦略: eBPF ゼロ計装 × 合成データ - **公開コーパス**: [[BOOM]]・[[TelecomTS]]・RCAEval RE2/RE3・[[AcmeTrace]]・alibaba_cluster_trace・azure_vm_traces。 - **eBPF ゼロ計装で自社/オープン K8s 環境から MELT を 4 種同時収集**([[テレメトリ]] §AgentSight・eInfer・ProfInfer 系)。<3% オーバーヘッドでログ-メトリクス-トレース-プロファイルの時間軸が同期したコーパスが得られる点が決定的(既存 TSFM コーパスはモダリティ非同期)。 - **合成データ**: Chronos の TSMixup 路線 + Chronos-2 の Multivariatizer をモダリティ間にも適用。(metrics, logs, traces) を同一インシデント時系列として合成(Chaos Engineering ループ + テンプレ生成ログ)。 - **leakage 回避**: [[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]] の non-leaking 評価方針を踏襲、RCAEval RE3 のコードレベル障害 F1〜F5 を厳格 out-of-distribution に確保。 ### 下流タスクへの適応: PLC/MLC/HLC 階層化 [[時系列基盤モデル]] §post-training survey の 3 階層をそのまま使う: - **PLC(LoRA)**: 予測(Toto と直接競合)、異常検知(TelecomTS 系)。 - **MLC(CLIP 流)**: 自然言語クエリ → 根本原因サービス特定。ARFBench-Toto-QA が示した「TSFM 埋め込みを VLM 空間に射影」を 3 モダ全てに拡張。 - **HLC(蒸留 + エージェント)**: [[Cast-R1]]・[[TimeCopilot]] 系の ATSF ツールとして呼び出される。MELT-FM が予測・診断・QA を 1 モデルで提供することで、Cast-R1 のツールクラスタを縮減できる。 ## 既存研究との差別化 | 軸 | [[Toto]] 2.0 | [[Falcon-X]] | [[TVDiag]]/[[TAMO]] | [[UModel]] | MELT-FM | |---|---|---|---|---|---| | モダリティ | M | M | M+L+T | M+L+T+E | M+L+T+E | | 事前学習 | ✓ | ✓ | ✗ | ✗ | ✓ | | 意味グラウンディング | ✗ | ✗ | ✗ | ✓ | ✓(特別トークン) | | スケール保持 | △ | △ | ✗ | — | ✓(NME) | | Path 構造ネイティブ | ✗ | ✗ | △(GNN 外付け) | △ | ✓(PathAttn) | | 多タスク(予測/検知/RCA/QA) | 予測 | 予測 | 診断 | データ | 全部 | | スケーリング則 | ✓ | ✓ | ✗ | — | 継承予定 | 新規性の核は次の 3 点: 1. **PathAttn の導入**: トレース木構造を Transformer 因子の 1 つに昇格させ、TVDiag/TAMO が GNN/拡散で外付けしていた依存構造を事前学習段階で内在化する。 2. **意味グラウンディングを事前学習特別トークンとして焼き込み**: UModel のオブジェクト中心モデリングを「下流での前処理」でなく「事前学習語彙の一部」として導入し、PromQL 直接生成 2.6% 問題の根を断つ。 3. **4 モダリティ同期 eBPF コーパス × 合成 Multimodal-Mixup**: モダリティ非同期問題を計装層から解決。 ## 未解決の問い・リスク - **Path-oriented データの事前学習スケール則は成立するか**: Toto 2.0 が示したスケーリング則は time-oriented で成立したが、トレース木のような可変構造データで同じ性質が出るかは未検証([[時系列基盤モデル]] の不規則時系列課題と同型)。 - **モダリティ嗜好の発現は post-training で十分か**: TVDiag は嗜好を pre 焼き込みで成功した。MELT-FM の「自由度を残す」設計が、下流ファインチューニング時に逆に収束遅延を生む可能性。 - **eBPF コーパスの公開可能性**: [[@2026__NSDI__PrvTel - Lightweight Models for Private and Accurate Telemetry Data Retention|PrvTel]] が示した通り、テレメトリ保持は ε-差分プライバシー等の形式保証を要する。自社環境からの 4 モダ同期コーパスは公開困難で、再現性が課題。 - **「正常急変動」問題は事前学習で解けるか**: [[TelecomTS]] の TX_Bytes スパイクは Toto でも偽陽性。ログ・トレース文脈付き事前学習で意味的に「正常スパイク」を学習できるか。 - **[[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]] の多解像度との直交性**: MELT-FM の VariateGroup/Path 軸と Cisco TSM の多解像度 + 特殊トークンは独立に追加可能か、相互干渉するか。 - **ATSF([[エージェント型時系列予測]])との競合か補完か**: MELT-FM が予測・診断・QA を統合すると、[[Cast-R1]] が前提とする「単機能ツール束」の存在意義が縮む。アンサンブル系 [[TimeCopilot]] とは補完しうるが、ATSF の RL 系とは設計哲学が衝突する。 ## 関連 - 概念: [[オブザーバビリティ]] / [[テレメトリ]] / [[時系列基盤モデル]] / [[Transformer]] / [[マルチモーダル障害診断]] / [[LLM時系列アプローチ]] / [[多変量時系列予測]] / [[異常検知]] / [[根本原因分析]] / [[Contiguous Patch Masking]] / [[エージェント型時系列予測]] - エンティティ: [[Toto]] / [[Chronos-2]] / [[Falcon-X]] / [[TimesFM]] / [[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]] / [[TelecomTS]] / [[BOOM]] / [[UModel]] / [[TVDiag]] / [[TAMO]] / [[SCELM]]