# LLM時系列アプローチ
## 定義
大規模言語モデル(LLM)を時系列データの予測・分析・異常検出などのタスクに適用する手法群の総称。サーベイ論文「Large Language Models for Time Series: A Survey」[Zhang+ 2024, arXiv:2402.01801] は手法を 5 カテゴリに分類する。
LLM 単体での能力が高まるにつれ、ドメイン固有の時系列モデルを一から学習することなく、LLM の事前学習知識を転移できる可能性が示されている。GPT-3・LLaMA-2 等がゼロショット時系列予測で教師ありモデルと同等以上の性能を示した事例(LLMTime)がその端的な実例である。
## 5 アプローチ分類
### 1. Prompting(プロンプティング)
数値時系列をテキスト形式(スペース区切り桁列、自然言語文など)に変換し、LLM に直接入力する手法。ファインチューニング不要でゼロショット予測が可能。
代表手法:
- **LLMTime** [Gruver+ 2023]: 数値を桁単位でスペース区切りにして BPE の分解問題を回避。GPT-3・LLaMA-2 でゼロショット予測。
- **PromptCast** [Xue+ 2023]: テンプレート駆動の文→文予測パラダイム。
制約: 数値の意味を言語空間で保持しきれず、単純なパターンに限定されやすい。
### 2. Quantization(量子化)
VQ-VAE・k-means などで時系列を離散インデックス列に変換し、LLM のトークン空間に接続する手法。
代表手法:
- **DeWave** [Duan+ 2023]: EEG 信号を離散インデックスに変換し自然言語に翻訳。
- SpeechGPT・AudioLM: 音声ドメインで確立されたアプローチ。
### 3. Aligning(整列)
時系列埋め込みを言語空間に整合させる手法。さらに 2 方向がある。
**相似性マッチング型** — 別個の時系列エンコーダと言語エンコーダを対照学習・正準相関分析で整合:
- MTAM [Han+ 2023]: 正準相関分析 + Wasserstein 距離で EEG↔テキスト整合。
- ETP [Liu+ 2024]: 心電図↔テキストの対照学習。
**LLM バックボーン型** — 事前学習済み LLM の大半の重みを凍結し、インターフェース部のみを学習:
- **One Fits All** [Zhou+ 2023]: GPT-2 の self-attention・feedforward 層を凍結(Frozen Pretrained Transformer)し、位置埋め込みのみをファインチューニング。7 タスク(分類・異常検出・補完・予測等)で最先端性能。**言語だけでなく画像事前学習モデル(BEiT)からの転移も有効**であることを示す。
> [!key-insight]
> 「One Fits All」の実証は、時系列固有の基盤モデルを一から学習せずとも、異分野(言語・画像)の大規模事前学習が転移できることを示した点で重要。[[時系列基盤モデル]](TSFM)研究の前段として位置づけられる。
### 4. Vision(ビジョン)
時系列を折れ線グラフ・チャート画像に変換し、マルチモーダル LLM(CLIP 等)に入力する手法。テキストと視覚情報を橋渡しとして使う。
### 5. Tool(ツール)
LLM がコード生成・API 呼び出しを通じて間接的に時系列タスクを実行する手法。**ToolLLM** [Qin+ 2024] は天気・株価 API 統合フレームワーク。
## 手法選択の指針
| 状況 | 推奨アプローチ |
|------|--------------|
| 訓練データが少ない・なし | Prompting |
| 十分な訓練データがある | Aligning・Quantization |
| 時系列+テキストのペアデータがある | Aligning(相似性マッチング型) |
| 既存 LLM/画像モデルを転移したい | Aligning(LLM バックボーン型) |
## 関連概念との位置づけ
- [[時系列基盤モデル]](TSFM) — 大規模多ドメイン時系列で事前学習したゼロショット基盤モデル。Aligning の LLM バックボーン型(One Fits All 等)が前史となり、Chronos・TimesFM・Toto 等の専用 TSFM へと発展した。
- [[エージェント型時系列予測]] — Tool アプローチをさらに発展させ、LLM エージェントが検索・コード実行・マルチステップ推論を組み合わせる枠組み。
- [[異常検知]] — Aligning・Prompting アプローチはログ・メトリクス系列の異常検知にも適用される。
## 横断的知見
- **Prompting アプローチのゼロショット優位性**: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] は、ファインチューニング済み言語モデル(Bigbird・Bart 等)が CT および ECL サブセットで SOTA 数値モデルと同等以上の RMSE を達成し、ゼロショット設定では数値モデルを大幅に上回ることを定量化した。サーベイ [Zhang+ 2024](@2024__Zenn__tsurubee__LLM-for-Time-Series 経由)が指摘するゼロショット能力の有望性を、実ベンチマーク数値で初めて裏付けた研究に相当する。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]], [[@2024__Zenn__tsurubee__LLM-for-Time-Series]])
- **大規模 LLM(GPT-3.5)はゼロショット予測では精度・コスト双方で劣る(2022-2023 年時点)**: PromptCast の実験(2023 年 8 月 API アクセス)では GPT-3.5-turbo が CT RMSE 10.3・SG Missing Rate 82.8% と全手法中最悪。同モデルはコストも Transformer-based 数値モデルの約 14 倍。この結果は後続の TSFM(Toto 等)が「LLM 汎用モデルより時系列特化モデルが優位」と主張する根拠と連続する。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]], [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]])
- **補助的な時間情報(日時・文脈)をテキストとして包摂することで数値モデルの temporal embedding に相当する効果を達成する**: PromptCast のアブレーション研究(表 X)で日時補助情報の有無が性能に大きく影響することが示された。数値モデルの timeF/fixed/learned 埋め込みとの対比が興味深い。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]])
## 未解決の問い
- PromptCast を発展させた多変量・長ホライズン向けの自動プロンプティング設計は今後どのように進展するか。
- GPT-3.5 以降の大規模 LLM(GPT-4o・Claude 等)は 2022 年時点の実験結果を覆すほどゼロショット時系列予測が改善されているか。
- 専用 TSFM(Toto・Chronos 等)と言語モデルの Prompting アプローチを組み合わせたハイブリッド手法(Toto-1.0-QA-Experimental 等)は Prompting アプローチのどの限界を克服するか。
## 横断的知見(続)
- **LLMTime: 数値桁列テキスト化によるゼロショット外挿**: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] は数値を桁単位でスペース区切りにする手法(LLMTime)で、GPT-3・LLaMA-2 70B が Darts/Monash/Informer の 3 ベンチマーク(計 29 データセット)で ARIMA・TCN・N-HiTS と同等以上の MAE・CRPS を達成することを示した。LLM の簡潔性バイアス(Occam's razor prior)と反復バイアスが季節性・トレンドと構造的に一致することが機能の理由として示される。GPT-4 は GPT-3 より予測が悪化するという反直感的結果も報告され、RLHF などのアライメント処理が確率的較正を損なうことが時系列タスクで再確認された。(Source: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]])
- **LLM 転用 vs 時系列専用学習の性能差**: [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] (TimesFM)は 200M パラメータの時系列専用 decoder-only モデルが、GPT-3 ベースの LLMTime より Monash 幾何平均スケーリング MAE を 25% 以上改善することを示した。LLMTime のゼロショット能力を実証した [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] の結果と対比すると、汎用 LLM のゼロショット能力に実用価値はあるが、時系列専用設計には約 25% の精度ギャップがある。この差が「専用 TSFM の正当性」の定量的根拠となる。(Source: [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]], [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]])
## 未解決の問い(続)
- LLMTime で確認された「GPT-4 がGPT-3 より劣る」スケーリング逆転現象は、2024 年以降の大規模 LLM(Claude-3/GPT-4o 等)でも再現するか。
- アライメント処理(RLHF)が時系列予測の確率的較正を損なうメカニズムは、言語タスクの過自信問題と同一か別か。
## ソース
- [[@2024__Zenn__tsurubee__LLM-for-Time-Series]] — [[Hirofumi Tsuruta]](Zenn ハンドル tsurubee、SAKURA internet)による解説記事。サーベイ論文 [Zhang+ 2024] に基づき 5 分類を紹介。
- [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] — [[Hao Xue]]・[[Flora Salim]]([[University of New South Wales]])による arXiv 2022 論文(arXiv:2210.08964、18p)。Prompting カテゴリの原典的研究。[[PISA]] データセット公開。
- [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] — [[Nate Gruver]]・[[Marc Finzi]]・[[Shikai Qiu]]・[[Andrew Gordon Wilson]](NYU/CMU)による NeurIPS 2023 論文(arXiv:2310.07820)。LLMTime。桁列テキスト化+連続密度変換でゼロショット時系列予測。
- [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] — [[Tian Zhou]] ほか([[Alibaba Group]] DAMO Academy)による NeurIPS 2023 論文(arXiv:2302.11939)。Frozen Pretrained Transformer(FPT)。GPT-2 の self-attention/FFN を凍結し 7 タスク統一。
- [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] — [[Abhimanyu Das]] ほか([[Google Research]])による ICML 2024 論文(arXiv:2310.10688)。[[TimesFM]]。200M パラメータのゼロショット時系列基盤モデル。