@2024__arXiv__Chronos Learning the Language of Time Series

> [!abstract] 概要(abstract 日本語訳) > 事前学習された確率的時系列モデルのための、シンプルかつ効果的なフレームワーク Chronos を紹介する。Chronos は時系列値をスケーリングと量子化によって固定語彙にトークナイズし、このトークナイズされた時系列に対して、既存のトランスフォーマーベースの言語モデルアーキテクチャをクロスエントロピー損失で学習させる。公開データセットの大規模コレクションに加え、汎化性の向上を目的としてガウス過程で生成した合成データセットを補完した形で、T5 ファミリー(パラメータ数は 20M〜710M)に基づく Chronos モデルを事前学習した。古典的なローカルモデルと深層学習手法の両方を含む 42 データセットからなる包括的ベンチマークにおいて、Chronos モデルが示すのは以下の点である。(a) 学習コーパスに含まれるデータセットでは他の手法を大幅に上回る。(b) 新たなデータセットに対して、そのデータセット専用に学習した手法と比較して、同等または時に優れたゼロショット性能を示す。以上の結果は、Chronos モデルが多様なドメインの時系列データを活用して未知の予測タスクにおけるゼロショット精度を向上させられることを示し、事前学習済みモデルが予測パイプラインを大幅に簡素化する実用的なツールとして位置づけられる可能性を示している。 ## 論文情報 - **タイトル**: Chronos: Learning the Language of Time Series - **著者**: Abdul Fatir Ansari*・Lorenzo Stella*・Caner Turkmen・Xiyuan Zhang†・Pedro Mercado・Huibin Shen・Oleksandr Shchur・Syama Sundar Rangapuram・Sebastian Pineda Arango†・Shubham Kapoor・Jasper Zschiegner†・Danielle C. Maddix・Hao Wang†・Michael W. Mahoney†・Kari Torkkola・Andrew Gordon Wilson†・Michael Bohlke-Schneider・Yuyang Wang（*equal contribution; †affiliation外からの参加者） - **所属**: AWS AI Labs (主体)・Amazon Supply Chain Optimization Technologies・UC San Diego・University of Freiburg・Rutgers University・UC Berkeley・New York University - **媒体**: Transactions on Machine Learning Research (TMLR, 2024年10月掲載) - **arXiv ID**: 2403.07815 (v3, 2024-11-04) - **OpenReview**: https://openreview.net/forum?id=gerNCVqqtR - **コード・モデル**: https://github.com/amazon-science/chronos-forecasting - **HuggingFace データセット**: https://huggingface.co/datasets/autogluon/chronos_datasets ## 概要 Chronos は時系列値を**スケーリング + 均一量子化**で離散トークン列に変換し、T5(encoder-decoder)や GPT-2(decoder-only)といった既存の言語モデルアーキテクチャを変更せずに確率的時系列予測モデルとして学習させる枠組みである。公開データセット約 89 万系列・約 840 億観測点と合成データを組み合わせて 4 サイズ(20M/46M/200M/710M)の T5 モデルを学習し、42 データセットでの包括評価でドメイン内・ゼロショット双方の優位を示した。特筆すべき点は、アーキテクチャや学習目的関数に時系列特有の変更を一切加えず、「時系列の言語」を LM フレームワークで学習するだけで強力な汎化が達成できることを実証した点である。 ## 問題設定 - **入力**: 等間隔一次元時系列 $x_{1:C}$(コンテキスト長 C) - **出力**: 次の H ステップの確率的予測分布 $p(x_{C+1:C+H} | x_{1:C})$ - **課題**: 従来の深層学習予測モデルはデータセットごとに個別学習が必要であり、多様なドメインに汎化する統一モデルが存在しない - **前提条件**: 本研究では一変量の等間隔時系列予測に焦点を当てる(多変量・不等間隔は今後の課題) ## 提案手法 ### アーキテクチャ全体像 Chronos は次の 3 段で構成される(Figure 1)。 1. **トークナイゼーション**: 実数値系列 → 離散トークン列 2. **LM 学習/推論**: T5/GPT-2 をそのまま使用し、クロスエントロピー損失で学習 3. **デトークナイゼーション**: サンプリングしたトークン列 → 確率的予測 ### 時系列トークナイゼーション(Section 3.1) 1. **平均スケーリング**: $s = \frac{1}{C}\sum_{i=1}^{C}|x_i|$ で除算正規化。ゼロ値の意味論的意義を保持できる利点がある(例:夜間の太陽発電ゼロ値)。 2. **均一量子化**: スケール後の系列を $B$ 個等間隔ビンに量子化 $q: \mathbb{R} \to \{1,\ldots,B\}$。ビン範囲 $[c_1, c_B] = [-15, +15]$ を固定し $B = 4096$ として実験。特殊トークン PAD(欠損値・パディング)と EOS をトークン語彙 $V_{ts}$ に追加。 3. **逆変換**: 推論時はサンプルされたトークン ID を $d(j) = c_j$(デクオンタイゼーション)で実数値へ戻し、$s$ を乗じてアンスケール。 ### 学習目的関数(Section 3.2) クロスエントロピー損失でカテゴリ分布を最大化する「分類による回帰(regression via classification)」を採用。距離感知ではなく、学習データのビン分布から隣接ビンの相関を暗黙的に学習する設計。カテゴリ出力の利点として(1)既存 LM ライブラリをそのまま利用可能、(2)マルチモーダル分布を含む任意の出力分布を表現可能、の 2 点を挙げる。 ### データ拡張(Section 4) - **TSMixup**: 学習データセットから $k \sim \mathcal{U}\{1, K\}$ 本の系列を無作為抽出し、平均スケーリング後に凸結合する拡張。元系列を 1/K 確率で混合比率 1 として含む。$K=3$ で学習。ゼロショット性能を改善する。 - **KernelSynth**: ランダムに構成したガウス過程カーネル(線形・周期・RBF 等の積/和の組み合わせ)から合成時系列を生成。訓練データ比率 9:1(実:合成)で混合時に最大効果。合成比率 10% 付近で最良。 ### 学習設定(Section 5.2) T5 の 4 サイズ(Mini 20M / Small 46M / Base 200M / Large 710M)と GPT-2(90M)を訓練。AWS EC2 8×A100(40GB)を使用。コンテキスト長 512・予測長 64・語彙サイズ 4,096・AdamW + 線形 lr decay(初期 0.001)で 200K ステップ。 **Figure 3: ワークフロー** ![[_attachments/arxiv-2403.07815/fig3-workflow.png]] (Figure 3. (a) An illustration of KernelSynth, a Gaussian process (GP)-based synthetic time series generation method. Kernels are s に関する処理フローを示す。) **Figure 6: モデル構成** ![[_attachments/arxiv-2403.07815/fig6-model.png]] (Figure 6. When fine-tuned on individual datasets from Benchmark II, Chronos-T5 (Small) significantly improves over the zero- shot に関するモデル構成を示す。) **Figure 7a: モデル構成** ![[_attachments/arxiv-2403.07815/fig7a-model.png]] (Figure 7a. We also observe this trend in the downstream model performance — it improves に関するモデル構成を示す。) ## 新規性 | 先行研究 | 課題 | Chronos の解決 | |---|---|---| | LLMTime(Gruver+ 2023) | GPT-3/Llama-2 等の大規模モデルが必要でスケーラビリティが低い | 20M〜710M の小規模モデルで同等以上のゼロショット精度 | | GPT4TS(Zhou+ 2023)・Time-LLM(Jin+ 2024) | タスクごとの fine-tuning が必要 | 事前学習のみでゼロショット予測が可能 | | Lag-Llama・Moirai-1.0-R | 時系列特有の設計(lag 特徴・時間特徴・実数値出力ヘッド等)が必要 | アーキテクチャ無改造・語彙サイズ調整のみ | | ForecastPFN(Dooley+ 2023) | 合成データのみで学習し実データより性能が低い | 実データと合成データ(KernelSynth)の混合で汎化改善 | 最大の新規性は「時系列用の設計を最小限にとどめ、言語モデル化フレームワークを直接適用する」点。量子化ビン数・スケーリング方式・語彙サイズ調整以外の変更を加えず、T5 に「時系列のテキスト」を読ませるだけで汎用予測器を構成した。 ## 実験設定 - **ハードウェア**: AWS EC2 8×NVIDIA A100 40GB - **データセット**: 55 データセット(Monash / M-competitions / Kaggle 等)から構成 - 学習専用: 13 データセット・79.5 万系列 - Benchmark I(ドメイン内): 15 データセット・9.7 万系列(学習・評価兼用) - Benchmark II(ゼロショット): 27 データセット・19.1 万系列(評価専用) - 学習コーパス合計: 約 89 万系列・約 840 億観測点 - **比較ベースライン**: 局所モデル(AutoETS・AutoARIMA・AutoTheta・SCUM 等)、タスク別深層学習(DeepAR・PatchTST・N-HiTS・N-BEATS・TFT・DLinear・WaveNet・GPT4TS)、事前学習モデル(Lag-Llama・Moirai-1.0-R・LLMTime・ForecastPFN) - **評価指標**: WQL(Weighted Quantile Loss、確率的予測)・MASE(Mean Absolute Scaled Error、点予測)を Seasonal Naive に対する相対スコアで幾何平均集約 **Figure 2: データセット** ![[_attachments/arxiv-2403.07815/fig2-dataset.png]] (Figure 2. illustration of TSMixup augmen- tation for k = {1, 2, 3}. TSMixup improves pattern diversity by taking weighted combina- に関する評価データセットを示す。) **Table 1: データセット** ![[_attachments/arxiv-2403.07815/table1-dataset.png]] (Table 1. high-level summary of the datasets and baselines used in our experiments に関する評価データセットを示す。) ## 実験結果 ### Benchmark I(ドメイン内、Figure 4) Chronos-T5 Base・Large が全ベースラインを大きく上回り、最良の集約相対 WQL・MASE を達成。T5 Mini(20M)でさえ Moirai-1.0-R Large(311M)より優れた性能を示した。タスク別深層学習モデルは局所統計モデルを上回るが、どの規模の Chronos-T5 にも及ばない。 ### Benchmark II(ゼロショット、Figure 5) - **確率的予測(WQL)**: Chronos 全モデルが 2〜4 位。タスク別モデルの多くを上回る。 - **点予測(MASE)**: Chronos-T5 Large が 2 位でタスク別 SCUM 等を超える。 - Moirai-1.0-R は Benchmark II 内のデータを事前学習に含む可能性があり、評価条件が有利。それでも多くの Chronos 変種に及ばない。 ### ファインチューニング(Figure 6) Benchmark II の各データセットで Chronos-T5 Small をファインチューニング(1,000 ステップ・初期 lr 0.001)すると、全ベースラインおよびゼロショット Chronos より大幅に性能向上し、Benchmark II 全体で最良となる。 ### アブレーション(Section 5.6) - **モデルサイズ**: 20M〜710M で単調改善(Figure 7b)。さらに大きいモデルでも改善を示唆するが、推論速度の実用制約から未検討。 - **初期化**: LM 重みでの初期化はランダム初期化と同等またはわずかに劣る(Figure 8, 9)。時系列予測への転移学習の優位性を確認できなかった。 - **TSMixup**: ゼロショット性能を改善。ドメイン内性能は同等。 - **合成データ比率**: 10% 付近で最良。増やしすぎると悪化(GP 合成データが実データの多様性を代表しないため)。 - **コンテキスト長**: 512→1,024 で改善。それ以上は横ばいまたは悪化(高頻度データセットが少ないため)。 - **語彙サイズ**: MASE は増加とともに改善。WQL は中程度で最適(スケール依存メトリクスのため挙動が異なる)。 ## 考察 ### 量子化の限界(Figure 16) - **オーバーフロー**: スパース系列(ゼロが多く稀に大きなスパイク)ではスケール $s$ が小さくなり、スパイク値がビン範囲外へ落ちて表現不能になる。 - **精度損失**: 大きなオフセット(例: sin 波 + 大きな定数)ではスケール $s$ が大きくなり、変動成分のビン分解能が低下する。 ### 傾向(トレンド)への対応(Figure 12–13) 線形トレンドは正確に予測できるが、指数関数的トレンドは苦手。コンテキストが短い場合にトレンドを過小評価する傾向がある(Air Passengers データセットで実証)。対策として対数変換の前処理が有効と示唆。 ### 確率的予測分布の柔軟性(Figure 15) カテゴリ分布でもマルチモーダルを含む多様な形状の予測分布を学習でき、クロスエントロピーが距離非感知であっても近傍ビンの相関を自然に学習する。 ## 強み / 弱点・課題 ### 強み - **シンプルさ**: 時系列特有のアーキテクチャ変更が不要。語彙サイズ変更のみで LM をそのまま適用できる。 - **確率的予測**: カテゴリ分布から自回帰サンプリングすることで、自然に不確実性を持つ確率的予測を生成。 - **ゼロショット競合力**: 専用学習モデルと同等またはそれ以上のゼロショット性能を小サイズモデルで達成。 - **LLM の進化との連携**: 固定語彙上の LM として、今後の LLM の進歩をそのまま取り込める設計。 - **データ拡張の有効性**: TSMixup + KernelSynth が実データ不足を補いゼロショット汎化を向上。 ### 弱点・課題(論文が認識) - **一変量限定**: 多変量時系列・外生変数・不等間隔時系列への対応が未検討。 - **量子化の精度損失**: スパース系列・大オフセット系列でオーバーフロー・精度損失が発生。 - **指数トレンドへの弱さ**: 指数的に増加/減少するトレンドを正確に予測するのが困難。 - **距離非感知の学習目的**: クロスエントロピーがビン間の近さを明示的に考慮しない。序数回帰や label smoothing による改善が将来課題。 - **時間・頻度情報の無視**: カレンダー情報(曜日・季節)を意図的に無視しており、高周期性データでは情報損失の可能性。 - **コンテキスト長制限**: T5 のデフォルト 512 トークンが上限であり、高頻度長コンテキストへの適用に制約。 - **LLM 重みの転移が効かない**: 事前学習済み T5 テキスト重みはランダム初期化と同等以下であり、言語知識の転移は確認できなかった。 ## 関連 - 概念: [[時系列基盤モデル]] / [[時系列トークナイゼーション]] / [[LLM時系列アプローチ]] / [[多変量時系列予測]] - エンティティ: [[Abdul Fatir Ansari]] / [[Lorenzo Stella]] / [[AWS AI Labs]] / [[Yuyang Wang]] / [[Andrew Gordon Wilson]] / [[Michael W. Mahoney]] - 関連 source: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] / [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] / [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] / [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]]