@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting

> [!abstract] 概要(abstract 和訳) > 自然言語処理(NLP)における大規模言語モデルの近年の進展に動機づけられ、我々は時系列予測のための時系列基盤モデルを設計した。このモデルは、様々な公開データセット上でのゼロショット予測の精度が、個々のデータセットに対して学習された最先端の教師あり予測モデルの精度に近い。我々のモデルは、パッチ入力を用いたデコーダスタイルのアテンションモデルを、実世界データと合成データの両方を含む大規模な時系列コーパスで事前学習することに基づいている。これまで見たことのない多様な予測データセットに対する実験から、このモデルが異なるドメイン、予測ホライズン、時間粒度にわたって正確なゼロショット予測を生成できることが示唆される。 ## 論文情報 - **タイトル**: A Decoder-Only Foundation Model for Time-Series Forecasting - **著者**: Abhimanyu Das・Weihao Kong・Rajat Sen・Yichen Zhou(著者名はアルファベット順) - **所属**: Google Research - **媒体**: arXiv プレプリント(arXiv:2310.10688v4、ICML 2024 掲載) - **投稿日**: 2023-10-16(v1)、最終更新 2024-04-17(v4) - **arXiv**: https://arxiv.org/abs/2310.10688 - **コード**: (公開モデル重みは別途予定と記述) ## 概要 Google Research の4名が提案した [[TimesFM]](Time-series Foundation Model)は、decoder-only トランスフォーマーとパッチ入力を組み合わせた時系列基盤モデルである。約 100B 時系列点の大規模コーパスで事前学習し、200M パラメータながら多様な予測データセットでゼロショットのまま教師あり SOTA に近い精度を示した。NLP の大規模言語モデルの設計思想を時系列予測に移植した先駆的な研究として位置づけられる。 ## 問題設定 - **入力**: 過去 C 時系列点のコンテキスト $y_{1:L}$ - **出力**: 未来 H 時系列点の予測 $\hat{y}_{L+1:L+H}$ - **制約**: 単一の事前学習済みモデルで、データセット固有の共変量なしに可変コンテキスト長・ホライズン長・時間粒度に対応する - **評価設定**: ゼロショット(評価データを事前学習に含めない)が主目的 ## 提案手法 ### アーキテクチャ(TimesFM) **パッチ化(Patching)** 時系列を固定長の非重複パッチに分割し、各パッチを「トークン」の類似物として扱う。パッチ長(input_patch_len $p$)は主実験で $p=32$ を採用。これにより(1) トランスフォーマーに渡すトークン数が $p$ 倍削減され計算効率が向上し、(2) 長域の時間パターンを 1 トークンに凝縮できる。 **decoder-only モデル** PatchTST がエンコーダ・デコーダ構成を採るのに対し、TimesFM はデコーダのみ(因果マスクのある自己注意)で学習する。各出力トークンは過去のパッチのみを参照し、学習時に全コンテキスト窓を並列処理できる(LLM の next-token prediction と同型)。 **入力層** パッチ $\tilde{y}_j = y_{p(j-1)+1:pj}$ をパディングマスクと共に残差ブロック(2層 MLP + スキップ接続)で model_dim 次元に変換し、位置エンコーディングを加算してトランスフォーマーに入力する(式 2)。 **スタックドトランスフォーマー** 標準のマルチヘッド因果自己注意 + FFN を $n_l$ 層積み重ねる。200M モデルは 20 層、model_dim=1280、16 ヘッド(表 6)。 **出力層と出力パッチ長(重要)** 出力パッチ長(output_patch_len $h$)を入力パッチ長 $p$ より長くする。LLM は 1 トークンずつ自己回帰生成するが、TimesFM は $h$ ステップを一度に生成する。例: $p=32$、$h=128$ なら、512 ステップの予測に必要な自己回帰ステップ数は $p=32$ での 16 ステップから4ステップへ削減される(図 1)。アブレーション(図 3b)では output_patch_len が 8→128 と増加するにつれ ETT 平均 MAE が単調に改善する。 **パッチマスキング(多様なコンテキスト長への対応)** 学習時にランダムな整数 $r \in [0, p-1]$ を選び先頭 $r$ 時系列点をマスクする。これにより、最大コンテキスト長を 512、$p=32$ とした場合、$r=0, 1, \ldots, 31$ の全 $r$ にわたって 1〜512 の全コンテキスト長を学習できる。 **正規化** RevIN(reversible instance normalization)の標準化部分のみを採用し、各系列のコンテキストを第1パッチの平均と標準偏差でスケーリングする。 **損失関数** ポイント予測 MSE を最小化(式 5)。確率的予測のための分位損失/最尤損失へ容易に拡張可能と述べているが、本論文の主実験はポイント予測のみ。 ### 実装上の工夫 - 推論時は出力パッチを連結して自己回帰的にホライズンを延伸(ホライズン長不明でも対応) - コンテキスト長 $L$ が $p$ の倍数でない場合は先頭にゼロパディングしマスクで処理 **Figure 3a: モデル構成** ![[_attachments/arxiv-2310.10688/fig3a-model.png]] (Figure 3a. This is now a standard way to perform scaling studies in LLMs (see recent work like [GD23]). It can be clearly seen that に関するモデル構成を示す。) ## 事前学習データ | データソース | 粒度 | 時系列数 | 時系列点数 | |---|---|---|---| | 合成(ARMA・季節・トレンド・ステップ) | 多様 | 3,000,000 | 6,144,000,000 | | Google Trends | 時間/日/週/月 | 22,435 × 4 | 〜0.5B | | Wikipedia ページビュー | 時間/日/週/月 | 5M〜68M × 4 | 〜300B(過半) | | Electricity | 時間 | 321 | 8,443,584 | | Traffic | 時間 | 862 | 15,122,928 | | M4 | 時間/日/週/月/四半期/年 | 計 100k 超 | 計 23.7M | | その他(Weather/Favorita/LibCity) | 10分/日/15分 | 計 118k 超 | 合計〜175M | (表 1 より。Wikipedia ページビューが約 300B 点でコーパスの大部分を占める) **混合比**: 実データ 80%・合成 20%。実データは時間・日・週・月の4粒度グループに均等な重みを付与。最大コンテキスト長は時間以上の粒度で 512、週は 256、月以上は 64 を使用。 ## 新規性 - **ゼロショット時系列基盤モデルの先駆**: TimeGPT-1 [Garza and Mergenthaler-Canseco 2023] が唯一の並行研究だが非公開。本論文は TimesFM として最初の公開アーキテクチャ詳細と事前学習データを開示した。 - **LLM を再利用せず時系列専用に学習**: GPT-3/LLaMA-2 をゼロショット予測に転用する llmtime [Gruver+ 2023] と異なり、時系列データのみで事前学習することではるかに小規模なモデル(200M)で大幅に優れたゼロショット精度を達成した。 - **decoder-only と入力パッチ長/出力パッチ長の分離**: PatchTST(エンコーダ型)と比較し、decoder-only にすることで可変コンテキスト長・ホライズン長に推論時に自動対応できる。さらに output_patch_len > input_patch_len とすることで自己回帰ステップ数を削減し精度も向上する。 ## 実験設定 **評価データ(事前学習から除外)** - **Monash Archive** [Godahewa+ 2021]: 30 データセット(欠損値を含む 12 を除いた 18 で評価)、分・時間・日・週・月・四半期・年の多粒度、金融・需要・気象・交通などのドメイン - **Darts** [Herzen+ 2022]: 8 単変量データセット、典型的な季節性と傾向を持つ - **Informer datasets / ETT** [Zhou+ 2021]: ETTh1・ETTh2・ETTm1・ETTm2、電気変圧器温度、ホライズン 96 と 192 **評価指標** - **Monash**: 各データセットの MAE をナイーブベースライン(直前値を繰り返す予測)の MAE でスケーリングして幾何平均(GM)を集計。スケールの異なるデータセット間の比較に頑健 - **Darts**: 同じスケーリングで算術平均(AM) - **ETT**: 標準化データ上の MAE を直接平均 **ベースライン** - ゼロショット: llmtime(GPT-3/GPT-3.5-Turbo) - 教師あり: DeepAR・N-BEATS・WaveNet・CatBoost・ETS・ARIMA・PatchTST・FEDFormer・Autoformer・Informer **Table 1: データセット** ![[_attachments/arxiv-2310.10688/table1-dataset.png]] (Table 1. Composition of TimesFM pretraining dataset. Dataset Granularity # Time series # Time points に関する評価データセットを示す。) **Figure 2b: データセット** ![[_attachments/arxiv-2310.10688/fig2b-dataset.png]] (Figure 2b. TimesFM performs the best and the supervised PatchTST [NNSK22] baseline (which is a state-of-the-art long horizon deep f に関する評価データセットを示す。) **Table 2: モデル構成** ![[_attachments/arxiv-2310.10688/table2-model.png]] (Table 2. We can see that our model performs the best by a large margin. In ETTh1, ETTh2, ETTm1 our finetuned model is better than に関するモデル構成を示す。) ## 実験結果 ### ゼロショット評価 **Monash**(図 2a、表 4) - TimesFM がゼロショットで最良。幾何平均スケーリング MAE 0.6846(ナイーブ=1.0) - N-BEATS(0.7005)をわずかに上回り、DeepAR(0.7477)・llmtime(0.9715)を大幅に上回る - llmtime 比では 25% 以上の改善 **Darts**(図 2b、表 3) - TimesFM は統計的有意差の範囲でトップ。幾何平均スケーリング MAE 0.5767 対 llmtime 0.4882・ARIMA 0.5219 - 8 データセットしかなく標準誤差が大きい点に注意 **ETT/Informer**(図 2c、表 5) - 平均 MAE 0.36(8 タスク平均)で最良。PatchTST(0.37)が有意差範囲内の次点、FEDFormer(0.53)・Autoformer(0.53)を大幅に上回る - llmtime は ETTh1/2 に対して評価コスト上 GPT-3.5-Turbo を使用した点に注意 ### ファインチューニング(付録 A.3) - GPT4TS [Zhou+ 2023] と同じプロトコル(元データの 10% のみで fine-tuning)で、4 ETT データセット全 16 タスクで最良 - ETTh1 で GPT4TS 比 MAE 0.426 対 0.525(−19%) ### アブレーション(図 3) **スケーリング**: 17M・70M・200M モデルを同じ事前学習データで学習し FLOPS に対する Monash GM スケーリング MAE を計測すると、FLOPS 増加とともに単調に改善する予備的なスケーリング結果が得られた(図 3a)。TPUv5e 16 コアで 200M モデルは 1.5M イテレーション約2日。 **Output patch length**: 8→128 と増やすにつれ ETT 平均 MAE が単調改善(図 3b)。200M モデルは output_patch_len=128 を採用。 **Input patch length**: 8〜128 の範囲で $p=16$・$p=32$ が最良(図 3c)。$p=32$ は $p=16$ と同等精度ながら学習が約2倍高速のため採用。 **合成データアブレーション**: 合成データなしでは、代表不足の粒度(四半期・年次・10 分)を含む Monash で性能低下。ETTh(1 時間)は影響小、ETTm(15 分)は合成ありで大幅改善(図 3d)。 **Figure 3: アブレーション結果** ![[_attachments/arxiv-2310.10688/fig3-ablation.png]] (Figure 3. Ablation studies に関するアブレーション結果を示す。) ## 考察 - **LLM 転用より専用学習が優る**: 200M の時系列専用モデルが、数十〜数百倍のパラメータを持つ GPT-3 ベース llmtime を大幅に上回った。時系列と自然言語は構造が大きく異なるため、専用の語彙・事前学習が有効。 - **パッチ化が鍵**: パッチによるトークン数削減は推論速度・精度の両面で有効。output_patch_len を長くすることで自己回帰のステップ数を減らしつつ精度を維持できる。 - **大規模ウェブデータの有効活用**: Wiki ページビュー(〜300B 点)という公開データを主要ソースに用いることで、独自の大規模コーパスなしにファウンデーションモデル規模の事前学習を実現した。 ## 強み / 弱点・課題 **強み** - 単一モデルで可変ドメイン・可変ホライズン・可変粒度のゼロショット予測 - 教師あり SOTA に迫るゼロショット精度を 200M 規模で達成 - decoder-only 設計による推論時のホライズン長非依存性 **弱点・課題(論文が認める限界)** - 共変量(カレンダー特徴・外生変数)に未対応。現状は推論時の残差回帰または fine-tuning での処理を提案するのみ - 確率的予測(分位点/分布)は将来課題として残存 - 多変量モデリング(クロスシリーズ依存)は対象外 - LLM のプロンプトチューニングに相当する手法が時系列では明確でない - 深層モデルと同様に解釈性が低い。LOCO/SHAP による特徴帰属は部分的な解決策に過ぎない - 学習コスト情報: TPUv5e 16 コアで 2 日(200M、1.5M 反復) ## 関連 - エンティティ: [[Abhimanyu Das]] / [[Weihao Kong]] / [[Rajat Sen]] / [[Yichen Zhou]] / [[Google Research]] / [[TimesFM]] - 概念: [[時系列基盤モデル]] / [[スケーリング則]] - 後継研究: [[TimesFM]] 2.0・2.5、[[@2025__arXiv__Cisco Time Series Model Technical Report|Cisco TSM]](継続事前学習)、[[Toto]]・[[BOOM]](観測特化) - 関連 source: [[@2025__arXiv__Cisco Time Series Model Technical Report]] / [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] / [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] - 関連 MOC: [[時系列基盤モデル - MOC]] ## 出典 - 本文 §1–§7・付録 A.1–A.9、arXiv:2310.10688v4(2024-04-17) - 表 1: 事前学習データ構成 - 表 6: ハイパーパラメータ(200M/70M/17M) - 図 2a–c: ゼロショット評価結果 - 図 3a–d: アブレーション - 表 2: ファインチューニング ETT 比較 - 表 3–5: Darts/Monash/ETT 詳細結果