時系列マルチモーダルLLM - yuuk1's Digital Garden

# 時系列マルチモーダルLLM ## 定義時系列マルチモーダル LLM(TS-MLLM)は、時系列を**画像 MLLM の画像と同等のネイティブなモダリティ**として直接 LLM に渡し、テキストクエリと組み合わせて理解・推論・対話を行う MLLM の一区分。([[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) 既存の LLM × 時系列の 3 既存路線(text-based 数値テキスト化、vision-based 折れ線画像化、agent-based ツール呼び出し)とは別の第 4 路線にあたり、[[ChatTS]](Xie+, VLDB 2025)が「TS-MLLM」というカテゴリを初めて定義し、多変量時系列入力に対応する初の実装を示した。 [[LLM時系列アプローチ]] の 5 既存分類(Prompting、Quantization、Aligning、Vision、Tool)は単変量時系列の予測・分類タスクが中心だった。TS-MLLM はこれらと違い、**多変量・可変長・自然言語クエリ駆動の理解と推論**を主タスクに据える点が決定的に異なる。 ## 横断的知見 - **TS-MLLM が必要な理由は「多変量の文脈関係を保持できるのは MLLM だけだから」である**: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] の text-only ablation(Fig 9-10)は、ChatTS の時系列エンコーダを取り去ってすべてをテキスト化すると、MTS タスクでほぼ回答不能になることを示した。さらに Qwen2.5-32B(text)を ChatTS と同じ訓練データで SFT しても、14B の ChatTS(TS modality)に届かない(Fig 11b)。これは [[LLM時系列アプローチ]] が既存研究で「数値テキスト化(LLMTime)が単変量の予測には効く」と整理してきた構図に対し、**多変量の理解・推論ではテキスト化に原理的限界がある**ことを明らかにし、TS-MLLM の必要性を実証した。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - **完全合成データでも実世界に通用するが、属性プールの離散組合せに依存する**: ChatTS は AIOps・気象・NAB・Oracle DB の実データを評価セットに使うが、訓練は属性プール(Trend 4 種・Periodicity 7 種・Noise 3 種・Local Fluctuation 19 種)とメトリクス名 567 種の組合せから生成した完全合成データのみで行う(Fig 4)。OOD パターン(訓練に無い "Convex-Shaped Elevation" 等)も合成的に説明・命名できる汎化が観察される(Fig 13)。これは [[時系列基盤モデル]](Toto/TimesFM 等)が大量の実世界データで事前学習する路線とは対照的で、「**属性離散組合せという中間表現が実世界系列の主要パターンを近似的に張る**」ことを示唆する。逆に、属性プールに無い病的パターン(極端な非定常・複雑なネスト周期等)の扱いは未検証で、合成データのみの限界として残る。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - **Agent ベースの限界は「ツール精度でなくツール選択」であり、TS-MLLM が agent を構造的に超える**: ChatTS の Perfect Tool 実験(Fig 12)は、完全に正確なツールを与えた agent でも Error Tool Using がエラーの最大要因と示した。これを除去すると agent は ChatTS を UTS で僅差上回るが MTS では届かない。これは [[AIOpsLab]] や [[SREGym]] が agent-based RCA の限界を「フロンティアモデルでも 5〜20 ステップで頭打ち」と報告した観察(本 wiki [[異常検知]] 参照)と同型——**agent の限界は LLM のツール選択・要約能力に内在し、ネイティブモダリティで一括処理する TS-MLLM がこれを構造的に回避する**ことが、時系列ドメインで定量的に裏付けられた。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - **Vision MLLM は時系列タスクで土俵を奪われた**: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] Table 3 の Dataset A で GPT-4o(vision)は overall categorical 0.609・numerical 0.436 と既存路線で最強だったが、ChatTS は同タスクで 0.889 / 0.788 を達成。画像解像度に縛られた vision の細部読取限界(時系列の数値スパイク・微細周期)が、ネイティブ時系列モダリティでは消える。同時に、[[時系列異常検知ベンチマーク]] の [[Can Multimodal LLMs Perform Time Series Anomaly Detection (VisualTimeAnomaly)]] が「MLLM は range/variate 粒度では数値モデル超えだが点別では F1 上限 8.12%」と報告した非対称性も、TS-MLLM のネイティブモダリティで克服しうる(ChatTS は数値タスクで relative accuracy 0.79〜0.93)。これは画像化路線と TS モダリティ路線で**粒度依存の優劣が逆転する**初の定量比較。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - **視覚化(折れ線画像)は「分類精度」より「推論一貫性」を向上させる**: Time-RA の MLLM 評価(表 3)では、画像単独 vs 画像+時系列の比較でも、Thought マッチング指標が画像+時系列で一貫して向上する(特に Llama-3.2-11B-v は peak 到達)。一方で Label F1/ActionID F1 への影響はモデル依存で一貫しない。これは ChatTS の「ネイティブ時系列モダリティが数値タスクで優位」という知見と組み合わせると、**視覚情報は生データと推論テキストの橋渡しに寄与し、定量的分類より定性的推論整合性で効果が安定する**という構造を示唆する。(Source: [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §4 RQ3) - **産業実装でも「時系列を画像として渡す方が精度が高い」という DeepMind の知見が採用の根拠になっている**: Amazon の SRE エージェント設計(Papapanagiotou, SREcon25 EMEA)は、時系列データを CSV/JSON のような表形式でなく画像として LLM に渡す方が異常検知の推論精度が高いという DeepMind の知見を引用し、実装判断の根拠とした。これは本ページが整理する「Vision MLLM は細部の数値読取で TS-MLLM(ネイティブモダリティ)に劣る」という ChatTS の定量比較(Table 3)と一見矛盾するようにも見えるが、Amazon の比較対象はテキスト化(CSV/JSON)であり画像化 vs テキスト化の話である点に注意が必要。ChatTS の知見(画像化 vs ネイティブ TS モダリティ)とは比較軸が異なり、両者は「テキスト化が最も劣り、画像化・ネイティブ TS モダリティはいずれもテキスト化より優れる」という点で整合する。(Source: [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]]) ## 未解決の問い - 属性プール(Trend/Periodicity/Noise/Local Fluctuation)に無い病的パターン——複数周期のネスト、非定常変化、混合分布のノイズ——を扱うには、属性プールをどこまで拡張すれば「合成データのみ」路線が崩れないか。あるいは、本路線は実世界 SFT データの追加なしで頭打ちか。([[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] Limitations) - TS-MLLM のネイティブモダリティと [[時系列基盤モデル]](Toto/TimesFM/Chronos)を統合するアーキテクチャは可能か。TSFM が高精度な予測埋め込みを返し、TS-MLLM がそれを引数に取って自然言語推論する 2 段構成は、agent-based の限界(tool selection 失敗)を回避しつつ TSFM の正確性を活かす経路として有望か。 - 5 層 MLP の単純なエンコーダで「十分」とする ChatTS の主張は、より複雑な時系列(高次元 MTS・非同期サンプリング・欠損)でも成立するか。エンコーダ複雑性と性能のトレードオフはどこに最適点があるか。 - TS-MLLM の生成タスク(text → 時系列)は ChatTS 著者自身が未着手と明示する。テキスト記述から時系列を生成できれば、合成データ生成器を一段抽象化でき、属性プールに依存しない自由形式の Q&A 生成や「過去事例の再現実験」が可能になる。どのアーキテクチャ(diffusion vs autoregressive vs flow)が向くか。 - 異常検知への TS-MLLM の適用は、[[LLMAD]] の段階的 CoT(global → local → recheck)とどう融合するか。[[LLMAD]] は単変量 GPT-4 ベースで動作するが、TS-MLLM の多変量モダリティで根本原因分析や系列間伝播分析を統合できれば、本 wiki [[異常検知]] が議論する「実用的異常 = 統計的逸脱 + インシデント裏付け」(MonitorAssistant)の定義に近づけるか。 - Time-RA は視覚化を入力に加えることで推論一貫性が向上することを示したが、TS-MLLM の「ネイティブ時系列モダリティ」と「画像化した時系列」の両方を入力とするハイブリッドアーキテクチャは定量的に有利か。ChatTS が「5 層 MLP エンコーダで十分」と示す構造と、Time-RA が使う視覚入力の役割は統合できるか。([[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §4 RQ3) ## 関連 - 概念: [[LLM時系列アプローチ]] / [[時系列推論]] / [[時系列質問応答]] / [[異常検知]] / [[時系列基盤モデル]] - 主要システム: [[ChatTS]] / [[Qwen2.5-14B-Instruct]] / [[TSEvol]] - 比較対象路線(ChatTS の他カテゴリ): text-based(LLMTime)/ vision-based(GPT-4o)/ agent-based(ReAct) - 関連 source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] / [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] / [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] ## 出典 - [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]](§2.3 TS-MLLM 定義、§4 評価結果、§5 ケーススタディ、§7 Limitations) - [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]](§4 RQ3 視覚表現と推論一貫性、表 3 MLLM 評価) - [[@2025__SREcon25EMEA__Modernizing Incident Response with LLMs, RAG, and the MCP]] — 時系列の画像化入力採用の産業実装根拠