# Towards Time-Series Reasoning with LLMs
**著者**: [[Winnie Chow]] (Stanford University), [[Lauren Gardiner]] (Apple), [[Haraldur T. Hallgrimsson]] (Apple), [[Maxwell A. Xu]] (University of Illinois Urbana-Champaign), [[Shirley You Ren]] (Apple)
**発表**: NeurIPS 2024 Workshop on Time Series in the Age of Large Models
**arXiv**: 2409.11376v2 (2024-12-04)
> [!abstract]
> マルチモーダル大規模言語モデル(MLLM)はビジョン等の領域で多くの進歩をもたらしているが、時系列に対してはその広範な成功がまだ実現されていない。時系列 MLLM の先行研究は時系列予測で有望な性能を示しているものの、LLM を自然言語での時系列推論に用いる研究はほとんど存在しない。本研究では、様々なドメインにわたる汎化可能な情報を学習し、強力なゼロショット性能を持つ新規のマルチモーダル時系列 LLM アプローチを提案する。まず、LLM 上に軽量な時系列エンコーダを学習させ、時系列情報を直接抽出する。次に、チェーン・オブ・ソート(CoT)で拡張した時系列タスクを用いてモデルを微調整し、推論経路の生成を促す。本モデルは、分布外データに対しても傾き・周波数などの特定の時系列特徴を反映した潜在表現を学習し、様々なドメインにわたるゼロショット推論タスクの集合で GPT-4o を上回ることを示す。
## 問題設定
時系列に対するマルチモーダル LLM の適用では、(1) 知覚——時系列データの主要特性の理解と識別、(2) 文脈化——与えられたテキスト文脈に基づくタスク関連特徴の抽出、(3) 演繹的推論——観察に基づく結論の導出、の 3 ステップが必要と著者らは論じる。
先行研究の多くは時系列を**テキストトークンに変換**することで LLM に入力しているが、これが**知覚ボトルネック**を生み出す原因であると仮定する。すなわち、テキスト化によって時間的パターンの認識能力が損なわれる。
## アーキテクチャ
時系列入力を固定長の非重複パッチに分割し、マルチヘッド自己注意エンコーダに通す。続く線形射影層で LLM の単語埋め込みと次元を合わせ、テキスト埋め込みと連結して LLM に入力する。平均と分散は時系列トークンの前にテキストとして付加する。バックボーン LLM には Mistral-7B を使用。
- パッチサイズ: 4
- マルチヘッド注意: 12 ヘッド、次元 600
- 訓練ハードウェア: 8 × A100 GPU
## 訓練手順(2 段階)
### ステージ 1: エンコーダのウォームアップ
LLM を凍結したまま、エンコーダと射影層を次トークン予測でゼロから訓練する。カリキュラム学習を採用:
1. 合成時系列の多肢選択 QA
2. 合成データのキャプショニング
3. 実データのキャプショニング
### ステージ 2: 推論タスクへの教師あり微調整
エンコーダ・射影層・LLM を LoRA で end-to-end 微調整する。大部分のタスクは GPT-4o で生成した CoT テキストで拡張する。
## 実験と主要結果
### 知覚評価(ステージ 1)
生成キャプションを強力な推論器(GPT-4o)に入力し、**病因論的推論**タスクで評価。
| 手法 | 精度 |
|---|---|
| 本モデル(キャプション) | 0.387 |
| GPT-4o(プロット入力) | 0.455 |
| Mistral-7B(テキスト入力) | 0.272 |
テキストのみの Mistral-7B から大幅改善。時系列を直接エンコードする有効性を支持する。
t-SNE 可視化では、訓練済みエンコーダが傾き・周波数・振幅などの特定の時系列特徴を LLM の潜在空間で連続的に表現することを示した。
### ゼロショット分類(ステージ 2)
UCR 分類アーカイブから選択した 11 データセットで GPT-4o と比較。
| データセット | 本モデル Acc | GPT-4o(テキスト) Acc | GPT-4o(プロット) Acc |
|---|---|---|---|
| Chinatown | 0.698 | 0.347 | 0.287 |
| ItalyPowerDemand | 0.701 | 0.564 | 0.505 |
| PowerCons | 0.643 | 0.495 | 0.485 |
| DodgerLoopWeekend | 0.654 | 0.554 | 0.594 |
| SonyAIBORobotSurface1 | 0.642 | 0.436 | 0.416 |
多数のデセットで本モデルが GPT-4o を上回る。GPT-4o がチャンスレベル近傍に留まるのは、時系列特有のエンコーダを持たないためと解釈される。
### 知覚ボトルネックの補足分析(付録 B)
病因論的推論タスクで入力表現を体系的に変えて比較:
| 入力形式 | GPT-4o | GPT-4 | Mistral-7B |
|---|---|---|---|
| カンマ区切り | 0.441 | 0.394 | 0.238 |
| トークン化 | 0.322 | 0.340 | 0.261 |
| プロット(3×0.4) | 0.410 | 0.32 | — |
| プロット(10×3) | 0.609 | 0.42 | — |
| キャプション | 0.455 | 0.460 | 0.242 |
| ランダムベースライン | 0.25 | | |
| 人間 | 0.661 | | |
- プロット解像度(10×3)で GPT-4o が人間性能に迫る。
- キャプション形式でも多くのモデルは改善しない → ボトルネックは表現だけでなく推論能力にも存在する。
## 訓練データセット
| データセット | 種別 | 用途 |
|---|---|---|
| Trend(合成) | 合成 | ステージ 1 MCQ |
| Pattern(合成) | 合成 | ステージ 1 キャプショニング |
| M4 | 実データ | ステージ 1/2 キャプショニング |
| UCR Archive | 実データ | ステージ 1/2 キャプショニング・分類 |
| Etiological Reasoning | 合成 | ステージ 2 推論 |
| PAMAP2 | 実データ | ステージ 2 分類 |
| Sleep(EEG) | 実データ | ステージ 2 分類 |
## 議論と限界
- ドメイン固有の閾値知識(例: DodgerLoopGame データセットの「50」という境界値)を事前訓練なしに推論することは困難。
- 小規模 LLM でも CoT 微調整により推論能力が発現するという evidence を示したが、より大規模なモデルとの組み合わせは未検証。
- キャプション生成に GPT-4o を ground truth の代理として使用している点は弱点。
## 関連研究との位置づけ
- [[Mosharaf Chowdhury]] らの先行研究(LLMTIME: ゼロショット時系列予測)は LLM をテキスト変換で用いるが、本研究は専用エンコーダで異なる。
- Merrill et al. (arXiv:2404.11757) が構築したベンチマーク(LLM が時系列ゼロショット推論で苦戦することを示す)に対して、本研究は具体的な解決策を提案する位置づけ。
- Time-LLM、LLM4TS などの予測特化先行研究はテキスト出力を持たないが、本研究は自然言語推論を出力対象とする点で異なる。
## 出典
- 原論文: [arXiv:2409.11376](https://arxiv.org/abs/2409.11376)
- ローカル PDF: `.raw/papers/arxiv-2409.11376.pdf`(MD5: `32894ec4bcb4d50df7f2bac8a08208b6`)
- 発表会場: NeurIPS 2024 Workshop on Time Series in the Age of Large Models