> [!abstract] 概要(arXiv abstract の日本語訳)
> 時系列を数値桁の文字列としてエンコードすることで、時系列予測を次トークン予測として定式化できる。このアプローチを発展させると、GPT-3 や LLaMA-2 などの大規模言語モデル(LLM)が、下流タスクで訓練された専用時系列モデルと同等以上の性能で、驚くべきことにゼロショットで時系列を外挿できることが分かる。この性能を引き出すために、時系列データを効果的にトークン化し、トークン上の離散分布を連続値上の高度に柔軟な密度に変換する手続きを提案する。LLM が時系列に有効である理由は、多峰分布を自然に表現できる能力と、季節的な繰り返しトレンドのような時系列の際立った特徴と一致する簡潔性・反復性へのバイアスにあると論じる。また、LLM が非数値テキストを通じて補完なしで欠損データを自然に扱えること、テキストによる付加情報を受け付けられること、予測を説明するための質問に答えられることを示す。時系列においてモデルサイズが増大するにつれて性能が全般的に向上する一方、GPT-4 はトークン化の方法と不確実性較正の悪化のために GPT-3 より性能が低下する場合があり、これはおそらく RLHF などのアライメント介入の結果である。
## 論文情報
- **タイトル**: Large Language Models Are Zero-Shot Time Series Forecasters
- **著者**: Nate Gruver(NYU)、Marc Finzi(CMU)、Shikai Qiu(NYU)、Andrew Gordon Wilson(NYU) ※ 3 名が equal contribution
- **媒体**: 37th Conference on Neural Information Processing Systems(NeurIPS 2023)
- **arXiv**: arXiv:2310.07820v3(最終版 2024-08-12)
- **コード**: https://github.com/ngruver/llmtime
- **所属**: NYU(Gruver, Qiu, Wilson)、CMU(Finzi)
- **助成**: NSF CAREER IIS-2145492、NSF I-DISRE 193471、NSF IIS-1910266、BigHat Biosciences、Capital One、Amazon Research Award
## 概要
数値時系列をスペース区切りの桁列テキストとしてエンコードし、LLM の次トークン予測能力を活用して時系列予測を行う手法 **LLMTime** を提案する。GPT-3 と LLaMA-2 70B で評価し、ファインチューニングなしのゼロショット設定で、Darts・Monash・Informer の 3 ベンチマーク(計 29 データセット)において ARIMA・TCN・N-HiTS 等の専用モデルと同等以上の MAE を達成した。LLM の性能は推論能力スケールと正の相関を示すが、GPT-4 は GPT-3 より悪化する。
## 問題設定
- **入力**: 数値時系列の観測履歴(コンテキスト長の範囲内)
- **出力**: 将来ステップの点予測または確率的予測(サンプル集合)
- **前提条件**: LLM の API アクセス(または重みへのアクセス)のみ。ファインチューニング不要、下流の訓練データ不要
- **課題背景**: 時系列は尺度・サンプリングレートが多様で欠損が多く、不確実性推定が重要。大規模事前学習は NLP・ビジョンでは確立されているが、時系列では統一的な自己教師あり目的関数や大規模コーパスがなく、ARIMA・線形モデルが深層学習を凌ぐことがある
## 提案手法
### アーキテクチャ概要
LLMTime は前処理・サンプリング・後処理の 3 段から成る。LLM 本体は既製のまま使い、前後の数値エンコーディングと確率密度変換で時系列対応を実現する。
### トークン化戦略
BPE(バイトペア符号化)は単一の数値を複数の断片化トークンに分割するため算術を困難にする。以下の 2 通りの対策が有効:
- **GPT 系モデル**: 各桁をスペースで区切り(`" 1 2 3"`)、BPE が各桁を独立トークンとして扱えるよう強制する。小数点は精度固定のもとで冗長なため省略し、コンテキスト長を節約する。例: `0.123, 1.23 → " 1 2 , 1 2 3"`
- **LLaMA 系モデル**: LLaMA トークナイザはデフォルトで各桁を独立トークンに対応づけているため、スペース追加は逆効果(系列長増加・分布外)になる
再スケーリング(αパーセンタイルを 1 に合わせる)と β オフセット(入力データのパーセンタイル)を検証ログ尤度でチューニングする。
### サンプリングと確率的予測
LLM から 20 サンプルを引き、各時点でのサンプル統計量を点推定(中央値)や確率的予測(分位数)に使う。温度スケーリング・ロジットバイアス・nucleus サンプリングで制御する。
### 連続密度への変換
LLM のトークン離散分布を連続密度に変換する:
- $n$ 桁 $B$ 進数では $B^n$ 個のビンが形成される
- 各ビン幅 $B^{-n}$ の一様分布の混合として連続密度を構成
- 対数尤度: $\log p(x) = \log p_k + n \log B$、さらに再スケーリングの変数変換補正項を加算
- この構成により、指数・学生-t・ARIMA 残差の裾の重い分布のような、ガウス混合モデルや固定ビン回帰が苦手とする多峰・非対称・重裾の分布を精度良く表現できる(図3)
## 新規性
既存手法との対比:
- **FPT(One Fits All)[Zhou+ 2023]**: BERT エンコーダをファインチューニング → LLMTime はファインチューニング不要
- **Meta-Transformer[Zhang+ 2023]**: 非テキストモダリティへの LLM ファインチューニング → 同上
- **PromptCast[Xue+ 2023]**: 「次の 5 ステップは何ですか?」という自然言語質問として予測 → LLMTime は数値値の直接テキスト化のみで、英語の問題として定式化せず
LLMTime の独自点: (1)ゼロショット(ファインチューニング完全不要)、(2)英語理解への依存なし(数値パターン外挿のみ)、(3)LLM の確率的出力を連続密度に変換する手続き、(4)欠損値を 'NaN' テキストで自然処理
## 実験設定
- **ベンチマーク**:
- **Darts**: 8 実データ単変量時系列(AirPassengers・GasRateCO2 等)。確率的評価(NLL/D・CRPS)に注力
- **Monash**: 30 公開データセット(400,000+ 系列)。計算コスト上、GPT-3 で 19 データセットを評価
- **Informer**: 多変量(ETT 等)。各変量を独立に予測
- **比較対象**: TCN・N-BEATS・N-HiTS(深層学習)、ARIMA(統計モデル)、ETS・CatBoost・DeepAR・WaveNet(Monash 既存結果)、SM-GP(ガウス過程)、PromptCast(競合 LLM 手法)
- **評価指標**: MAE(点予測)、CRPS(分布較正)、NLL/D(負対数尤度)
- **LLM**: GPT-3(text-davinci-003)、LLaMA-2 70B。サイズ実験: davinci/babbage/curie/ada(OpenAI)、LLaMA 7B/13B/33B/65B、LLaMA-2 7B/13B/70B
- **データ漏洩対策**: ベースモデルの訓練データに含まれ得るデータを認識し、付録 B で専用の分析
## 実験結果
### 定量評価
- **Darts(MAE)**: LLMTime(GPT-3)または LLMTime(LLaMA-2 70B)が全モデル中最良または次良(図4)
- **Monash(MAE)**: GPT-3 で最良または次良。値正規化後の集計(付録 C.2 参照)
- **Informer(MAE)**: LLaMA-2 70B が最良または次良(GPT-3 は API コストのため未評価)
- **Darts(CRPS・NLL)**: CRPS・NLL で全ベースラインを大幅に上回り、特に確率的評価で優位が顕著(図5中央)
- **データ量**: 訓練データをフラクション制限するとベースラインが急劣化するが、LLMTime はわずかな例数で高尤度を維持(図5右)
- **PromptCast との比較**: 同じ GPT-3・LLaMA-2 70B でも LLMTime が CRPS・MAE の両指標で大幅優位——トークン化と再スケーリングの前処理が決定的
### スケーリング実験(図7)
- **ベースモデル vs 推論能力**: MMLU 精度と CRPS・NLL の間に正の相関。モデルサイズが上がると予測精度が改善する傾向
- **GPT-4 の劣化**: GPT-4 は GPT-3 より Darts CRPS が大幅に悪化(図7中央)。原因:
1. GPT-4 のトークン化変更により各桁を連続ストリームとして強制できない
2. API での尤度評価が禁止されているため CRPS のみ報告
3. RLHF による不確実性較正の劣化(MMLU 較正研究との一致)
- **チャットモデル**: LLaMA-2 Chat 版はベースモデルより予測誤差が大きく、アライメントが予測能力を損なうことを示す(図7右)
### 欠損値(図8左)
LLaMA-2 70B は 'NaN' で欠損を表記した場合に、線形補完を施した TCN・ARIMA・N-HiTS より高い対数尤度を示し、CRPS でも競合。ベースラインは欠損率 50% で急劣化するが LLaMA-2 は堅牢。
### ゼロショット性能の起源(§5)
- PySR 記号回帰で生成ルールの複雑度を定量化し、GPT-3 が「シンプルな生成ルールに高い尤度を割り当てる」Occam's razor バイアスを実証(図6左)
- 反復バイアスが周期性、算術能力がトレンドと対応(図6右)
- 複数パターンの合成には GPT-3 は苦手(GPT-4 はより得意)
### 時系列と言語理解の接続(§6)
GPT-4 に合成時系列の生成関数を CoT 推論で推定させると、ランダムより高い精度だが、数値を直接外挿する精度より低い——数値理解と言語理解は完全には接続されていない(図8右)
## 考察
- LLM の時系列予測能力は汎用テキスト事前学習から創発する。時系列特化データは不要
- スケーリング則の恩恵を時系列が直接受けられる——ベースモデルの推論能力向上が予測精度を向上させる
- RLHF などのアライメント処理が較正を損なう副作用は、予測タスクでも確認される。ベースモデルと指示追従モデルを別々に評価する必要がある
- コンテキスト長が制約になる多変量・長系列問題は今後の課題
## 強み
- ファインチューニング不要で実装が容易(OpenAI API または llama.cpp で即利用可)
- データが少ない・ゼロの環境で特に有利(図5右)
- 欠損値・テキスト付加情報・質問応答を一つの LLM で統一的に扱える
- NeurIPS 2023 での査読付き発表
## 弱点・課題
- **コンテキスト長制約**: 長い系列履歴または多変量は文脈窓に収まらない
- **算術の限界**: 複合パターン(例: 周期 × 指数増加)は GPT-3 では苦手
- **GPT-4 のトークン化問題**: 新世代モデルほど数値トークン化が悪化する可能性があり、API 制約と相まって評価が困難になる
- **コスト**: Monash の全 30 データセットは API コストのため一部を省略
- **データ漏洩**: 訓練データに評価ベンチマークが混入している可能性——同論文は付録 B で漏洩のない代替データセットでも有効であることを示す
- 多変量間の共分散を陽に捉えられない(各変量を独立に予測)
## 関連
- [[LLM時系列アプローチ]] — 本論文が Prompting アプローチの代表例として位置づけられる
- [[時系列基盤モデル]] — LLMTime は専用 TSFM(Chronos・Toto・TimesFM)の前史。大量データを使わずゼロショットで専用モデルと競合することを示した先駆
- [[文脈内学習]] — LLMTime のゼロショット予測は ICL の一形態
- [[スケーリング則]] — MMLU と CRPS の相関が、言語モデルのスケーリング則が時系列予測に転移することを示唆
- [[Andrew Gordon Wilson]] — NYU の上席著者。ガウス過程・ベイズ深層学習・LLM の確率的能力に関する研究グループ
- [[Nate Gruver]] — 筆頭著者(NYU)。LLMTime のコード実装を主導
- [[Marc Finzi]] — 共同筆頭著者(CMU)。等変ネットワーク・LLM 帰納バイアス研究
## 出典
- 本文: `.raw/papers/arxiv-2310.07820.pdf`
- arXiv: https://arxiv.org/abs/2310.07820
- GitHub: https://github.com/ngruver/llmtime