# Towards Time-Series Reasoning with LLMs **著者**: [[Winnie Chow]] (Stanford University), [[Lauren Gardiner]] (Apple), [[Haraldur T. Hallgrimsson]] (Apple), [[Maxwell A. Xu]] (University of Illinois Urbana-Champaign), [[Shirley You Ren]] (Apple) **発表**: NeurIPS 2024 Workshop on Time Series in the Age of Large Models **arXiv**: 2409.11376v2 (2024-12-04) > [!abstract] > マルチモーダル大規模言語モデル(MLLM)はビジョン等の領域で多くの進歩をもたらしているが、時系列に対してはその広範な成功がまだ実現されていない。時系列 MLLM の先行研究は時系列予測で有望な性能を示しているものの、LLM を自然言語での時系列推論に用いる研究はほとんど存在しない。本研究では、様々なドメインにわたる汎化可能な情報を学習し、強力なゼロショット性能を持つ新規のマルチモーダル時系列 LLM アプローチを提案する。まず、LLM 上に軽量な時系列エンコーダを学習させ、時系列情報を直接抽出する。次に、チェーン・オブ・ソート(CoT)で拡張した時系列タスクを用いてモデルを微調整し、推論経路の生成を促す。本モデルは、分布外データに対しても傾き・周波数などの特定の時系列特徴を反映した潜在表現を学習し、様々なドメインにわたるゼロショット推論タスクの集合で GPT-4o を上回ることを示す。 ## 問題設定 時系列に対するマルチモーダル LLM の適用では、(1) 知覚——時系列データの主要特性の理解と識別、(2) 文脈化——与えられたテキスト文脈に基づくタスク関連特徴の抽出、(3) 演繹的推論——観察に基づく結論の導出、の 3 ステップが必要と著者らは論じる。 先行研究の多くは時系列を**テキストトークンに変換**することで LLM に入力しているが、これが**知覚ボトルネック**を生み出す原因であると仮定する。すなわち、テキスト化によって時間的パターンの認識能力が損なわれる。 ## アーキテクチャ 時系列入力を固定長の非重複パッチに分割し、マルチヘッド自己注意エンコーダに通す。続く線形射影層で LLM の単語埋め込みと次元を合わせ、テキスト埋め込みと連結して LLM に入力する。平均と分散は時系列トークンの前にテキストとして付加する。バックボーン LLM には Mistral-7B を使用。 - パッチサイズ: 4 - マルチヘッド注意: 12 ヘッド、次元 600 - 訓練ハードウェア: 8 × A100 GPU ## 訓練手順(2 段階) ### ステージ 1: エンコーダのウォームアップ LLM を凍結したまま、エンコーダと射影層を次トークン予測でゼロから訓練する。カリキュラム学習を採用: 1. 合成時系列の多肢選択 QA 2. 合成データのキャプショニング 3. 実データのキャプショニング ### ステージ 2: 推論タスクへの教師あり微調整 エンコーダ・射影層・LLM を LoRA で end-to-end 微調整する。大部分のタスクは GPT-4o で生成した CoT テキストで拡張する。 ## 実験と主要結果 ### 知覚評価(ステージ 1) 生成キャプションを強力な推論器(GPT-4o)に入力し、**病因論的推論**タスクで評価。 | 手法 | 精度 | |---|---| | 本モデル(キャプション) | 0.387 | | GPT-4o(プロット入力) | 0.455 | | Mistral-7B(テキスト入力) | 0.272 | テキストのみの Mistral-7B から大幅改善。時系列を直接エンコードする有効性を支持する。 t-SNE 可視化では、訓練済みエンコーダが傾き・周波数・振幅などの特定の時系列特徴を LLM の潜在空間で連続的に表現することを示した。 ### ゼロショット分類(ステージ 2) UCR 分類アーカイブから選択した 11 データセットで GPT-4o と比較。 | データセット | 本モデル Acc | GPT-4o(テキスト) Acc | GPT-4o(プロット) Acc | |---|---|---|---| | Chinatown | 0.698 | 0.347 | 0.287 | | ItalyPowerDemand | 0.701 | 0.564 | 0.505 | | PowerCons | 0.643 | 0.495 | 0.485 | | DodgerLoopWeekend | 0.654 | 0.554 | 0.594 | | SonyAIBORobotSurface1 | 0.642 | 0.436 | 0.416 | 多数のデセットで本モデルが GPT-4o を上回る。GPT-4o がチャンスレベル近傍に留まるのは、時系列特有のエンコーダを持たないためと解釈される。 ### 知覚ボトルネックの補足分析(付録 B) 病因論的推論タスクで入力表現を体系的に変えて比較: | 入力形式 | GPT-4o | GPT-4 | Mistral-7B | |---|---|---|---| | カンマ区切り | 0.441 | 0.394 | 0.238 | | トークン化 | 0.322 | 0.340 | 0.261 | | プロット(3×0.4) | 0.410 | 0.32 | — | | プロット(10×3) | 0.609 | 0.42 | — | | キャプション | 0.455 | 0.460 | 0.242 | | ランダムベースライン | 0.25 | | | | 人間 | 0.661 | | | - プロット解像度(10×3)で GPT-4o が人間性能に迫る。 - キャプション形式でも多くのモデルは改善しない → ボトルネックは表現だけでなく推論能力にも存在する。 ## 訓練データセット | データセット | 種別 | 用途 | |---|---|---| | Trend(合成) | 合成 | ステージ 1 MCQ | | Pattern(合成) | 合成 | ステージ 1 キャプショニング | | M4 | 実データ | ステージ 1/2 キャプショニング | | UCR Archive | 実データ | ステージ 1/2 キャプショニング・分類 | | Etiological Reasoning | 合成 | ステージ 2 推論 | | PAMAP2 | 実データ | ステージ 2 分類 | | Sleep(EEG) | 実データ | ステージ 2 分類 | ## 議論と限界 - ドメイン固有の閾値知識(例: DodgerLoopGame データセットの「50」という境界値)を事前訓練なしに推論することは困難。 - 小規模 LLM でも CoT 微調整により推論能力が発現するという evidence を示したが、より大規模なモデルとの組み合わせは未検証。 - キャプション生成に GPT-4o を ground truth の代理として使用している点は弱点。 ## 関連研究との位置づけ - [[Mosharaf Chowdhury]] らの先行研究(LLMTIME: ゼロショット時系列予測)は LLM をテキスト変換で用いるが、本研究は専用エンコーダで異なる。 - Merrill et al. (arXiv:2404.11757) が構築したベンチマーク(LLM が時系列ゼロショット推論で苦戦することを示す)に対して、本研究は具体的な解決策を提案する位置づけ。 - Time-LLM、LLM4TS などの予測特化先行研究はテキスト出力を持たないが、本研究は自然言語推論を出力対象とする点で異なる。 ## 出典 - 原論文: [arXiv:2409.11376](https://arxiv.org/abs/2409.11376) - ローカル PDF: `.raw/papers/arxiv-2409.11376.pdf`(MD5: `32894ec4bcb4d50df7f2bac8a08208b6`) - 発表会場: NeurIPS 2024 Workshop on Time Series in the Age of Large Models