@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting

> [!abstract] 概要(abstract 日本語訳) > 事前学習済み時系列モデルは、タスク固有の学習なしに正確な予測を生成する推論専用の予測システムを可能にしてきた。しかし既存のアプローチはほぼ単変量予測に限定されており、多変量データや共変量が重要な役割を果たす実世界のシナリオへの適用が妨げられている。我々は Chronos-2 を提案する。これは単変量・多変量・共変量付き予測タスクをゼロショットで扱える事前学習済みモデルである。Chronos-2 はグループ注意(group attention)機構を採用し、グループ内の複数時系列間で効率的な情報共有を行うことでインコンテキスト学習(ICL)を実現する。このグループは関連系列の集合、多変量系列の変量、あるいはターゲットと共変量から構成されうる。こうした汎用能力は、単変量系列に多様な多変量構造を課す合成データセットを用いた学習によって達成される。Chronos-2 は fev-bench・GIFT-Eval・Chronos Benchmark II の 3 つの包括的ベンチマークで最先端の性能を達成する。共変量付き予測を重視する fev-bench では、Chronos-2 の汎用 ICL 能力が既存モデルを大幅に上回る改善をもたらす。共変量付きタスクでは一貫して大差でベースラインを上回る。エネルギーと小売りドメインのケーススタディがその実用上の優位性をさらに示す。Chronos-2 のインコンテキスト学習能力は、実世界の予測パイプラインにそのまま組み込める汎用予測モデルとしての地位を確立する。 ## 論文情報 - **タイトル**: Chronos-2: From Univariate to Universal Forecasting - **著者**: Abdul Fatir Ansari\*、Oleksandr Shchur\*、Jaris Küken\*†、Andreas Auer†、Boran Han、Pedro Mercado、Syama Sundar Rangapuram、Huibin Shen、Lorenzo Stella、Xiyuan Zhang、Mononito Goswami、Shubham Kapoor、Danielle C. Maddix、Pablo Guerron†、Tony Hu、Junming Yin、Nick Erickson、Prateek Mutalik Desai、Hao Wang†、Huzefa Rangwala、George Karypis、Yuyang Wang‡、Michael Bohlke-Schneider‡(\* 共同筆頭、‡ 共同シニア) - **所属**: Amazon Web Services(主)、University of Freiburg、Johannes Kepler University Linz、Boston College、Rutgers University - **媒体**: arXiv テクニカルレポート - **arXiv ID**: 2510.15821 - **投稿日**: 2025-10-17 - **ページ数**: 31 - **コード**: github.com/amazon-science/chronos-forecasting ## 概要 Chronos-2 は Amazon Web Services が公開した時系列基盤モデルで、group attention と合成多変量データ生成(multivariatizer)の組み合わせにより、単変量・多変量・共変量付き予測を単一モデルでゼロショット処理する最初の汎用 TSFM である。fev-bench(100 タスク)・GIFT-Eval(97 タスク)・Chronos Benchmark II(27 タスク)の 3 ベンチマーク全てで TiRex・TimesFM-2.5・Toto-1.0 等の既存 SOTA を上回り、前身 Chronos-Bolt も明確に超える。 ## 問題設定 - **入力**: 単変量時系列・多変量時系列・共変量付き時系列(過去のみ既知の共変量・将来も既知の共変量・カテゴリカル共変量)のいずれか - **出力**: 確率的予測(21 分位数 Q={0.01, 0.05, 0.1, …, 0.9, 0.95, 0.99}) - **前提条件**: ゼロショット設定(タスク固有の学習・ファインチューニング不要) - **課題**: (1)既存 TSFM はほぼ単変量に限定されており多変量と共変量に対応しない; (2)高品質な多変量事前学習データが不足している ## 提案手法 ### アーキテクチャ Chronos-2 は encoder-only トランスフォーマー(T5 エンコーダに準拠、120M パラメータ)で構成される。核となる革新はトランスフォーマーブロック内に交互配置した 2 種の注意層にある。 - **Time Attention**: 単一次元のパッチ列内で時間軸方向の自己注意。位置埋め込みに RoPE を採用 - **Group Attention**: グループ内の全系列が同一パッチインデックス位置で情報を共有する注意。グループは「任意の関連する系列集合」として柔軟に定義でき、positional embedding なし。メモリスケーリングは変量数 $V$ に対し $O(V)$ ### 入力処理 1. **ロバストスケーリング**: 標準化 + $\sinh^{-1}$ 変換で外れ値の影響を抑制 2. **メタ特徴**: 時間インデックス(文脈内の相対位置)とマスク(欠損/将来共変量の識別)を追加 3. **パッチング**: 非重複パッチに分割し残差ネットワークで高次元埋め込みへ写像 4. **REG トークン**: 文脈と将来パッチの境界に特別なセパレータトークンを挿入 ### 多変量 ICL の実現方法グループ ID と将来入力 $W$ の組み合わせにより同一アーキテクチャで 3 タスクを切り替え可能: - **単変量**: 各系列に一意のグループ ID を割り当て - **多変量**: 同一多変量系列の各変量に同じグループ ID - **共変量付き**: ターゲット・過去共変量・将来共変量を同じグループ ID(将来共変量のみ $W$ に実値を入力) ### 訓練データ - **単変量**: Chronos および GIFT-Eval の事前学習コーパス(公開データ)+ 合成データ(TSI・TCM 生成器) - **多変量**: 完全に合成データのみ。**Multivariatizer** が単変量生成器(AR・ETS・TSI・KernelSynth)からサンプルした複数系列に依存関係を付加 - Cotemporaneous multivariatizer: 同時刻ステップの線形/非線形変換で瞬時相関を導入 - Sequential multivariatizer: 時間をまたぐ依存(リードラグ・共和分)を導入 ### 訓練手順 2 段階学習: 第 1 段階はコンテキスト長 2,048、第 2 段階はコンテキスト長 8,192 にポストトレーニングで延長。損失は分位数回帰(Eq. 4、全 21 分位の pinball loss 平均)。 ### 量子化ヘッド各将来パッチの埋め込みから 21 分位数の予測 $\hat{Z} \in \mathbb{R}^{H \times D \times |Q|}$ をシングルパスで直接出力。自己回帰サンプリングを必要としないため推論が高速。 **Figure 2: モデル構成** ![[_attachments/arxiv-2510.15821/fig2-model.png]] (Figure 2. pairwise win rates (a) and skill scores (b) of the top-4 pretrained models on fev-bench に関するモデル構成を示す。) ## 新規性既存 TSFM との差異: - **Moirai-1.0**: 多変量入力を平坦化するため高次元でスケールしない($O(V^2)$)。Chronos-2 は $O(V)$ - **Toto-1.0**: 変量間 attention を持つが将来既知共変量・カテゴリカル共変量に非対応 - **COSMIC**: 共変量付きに対応するが多変量ターゲットに非対応 - **Chronos-Bolt/Moirai-2.0/Sundial/TimesFM-2.5/TiRex**: 単変量のみ Chronos-2 はこれら全ての制限を解消しつつ、memory scaling を $O(V)$ に抑える初の TSFM である(Table 1)。合成データだけで多変量 ICL を付与する訓練戦略も新しく、高品質な実世界多変量データの不足という業界の課題を正面から回避する。 ## 実験設定 - **ハードウェア**: 単一 NVIDIA A10G GPU(推論時) - **モデルサイズ**: 120M パラメータ(base)・28M パラメータ(small、アブレーション用) - **ベンチマーク**: - fev-bench(Shchur et al., 2025): 100 タスク、単変量 32・多変量 26・共変量付き 42 - GIFT-Eval(Aksu et al., 2024): 97 タスク、55 データセット、高頻度・長ホライズン重視 - Chronos Benchmark II: 27 タスク、短い履歴(< 300 時間ステップ) - **比較対象**: TiRex・TimesFM-2.5・Toto-1.0・Moirai-2.0・TabPFN-TS・COSMIC・Sundial・Chronos-Bolt(事前学習済み TSFM 各種)+ AutoARIMA・AutoETS・AutoTheta・統計アンサンブル(統計的手法) - **評価指標**: scaled quantile loss(SQL)・weighted quantile loss(WQL)・mean absolute scaled error(MASE)、average win rate と skill score で集約 **Table 6: データセット** ![[_attachments/arxiv-2510.15821/table6-dataset.png]] (Table 6. Real univariate datasets used for pretraining Chronos-2 に関する評価データセットを示す。) ## 実験結果 ### fev-bench(Table 3・Figure 2) Chronos-2 が全モデルを統計的有意な差で上回る。 | モデル | Avg. Win Rate (%) | Skill Score (%) | |---|---|---| | **Chronos-2** | **90.7** | **47.3** | | TiRex | 80.8 | 42.6 | | TimesFM-2.5 | 75.9 | 42.3 | | Toto-1.0 | 66.6 | 40.7 | | COSMIC | 65.6 | 39.0 | | Chronos-Bolt | 60.3 | 38.9 | pairwise win rate の 95% CI が全ての比較で 50% を超え、skill score の 95% CI が 0% を超えることを確認。共変量付きタスク(42 タスク)では ICL による skill score の上乗せが最大(univar 39.9 → with ICL 47.0)。 ### GIFT-Eval(Table 4) WQL で Win Rate 81.9%・Skill Score 51.4%、MASE で Win Rate 83.8%・Skill Score 30.2%。いずれも TiRex・TimesFM-2.5 を上回る。 ### Chronos Benchmark II(Table 5) WQL で Win Rate 79.8%・Skill Score 46.6%、MASE で Win Rate 81.5%・Skill Score 26.5%。短い履歴のタスクで ICL による cross-learning が最も有効。 ### ICL の貢献分解(Figure 3・4) - 単変量タスク: ICL で Skill Score +1 ポイント程度(cross-learning で関連系列から情報補完) - 多変量タスク: ICL のゲインは小さい(univar モードでも Toto-1.0 を上回る) - 共変量付きタスク: ICL が最大の恩恵。univar 39.9 → with ICL 47.0 ### ドメインケーススタディ(Figure 5) - エネルギー: Skill Score 40.9(univar) → 51.3(with ICL)、TabPFN-TS 46.5 を超える - 小売り: Skill Score 42.1(univar) → 48.6(with ICL)、TabPFN-TS 44.3 を超える ### アブレーション(Figure 8) - **小型モデル(28M)**: GIFT-Eval で -1pp、推論速度は約 2 倍 - **合成データのみ(Chronos-2-Synth)**: Chronos Benchmark II・GIFT-Eval では実データ混合版と僅差; fev-bench では差が大きい - **長コンテキストなし(Chronos-2-2K、コンテキスト 2048 のみ)**: 特に GIFT-Eval で性能低下 **Table 2: モデル構成** ![[_attachments/arxiv-2510.15821/table2-model.png]] (Table 2. Diverse forecasting tasks can be solved by specifying group IDs and future inputs appropriately. Here, g and W denote th に関するモデル構成を示す。) **Table 4: モデル構成** ![[_attachments/arxiv-2510.15821/table4-model.png]] (Table 4. GIFT-Eval results. The average win rate and skill score に関するモデル構成を示す。) **Table 5: データセット** ![[_attachments/arxiv-2510.15821/table5-dataset.png]] (Table 5. Chronos Benchmark II results. The average win rate and skill score に関する評価データセットを示す。) ## 考察 - **多変量 ICL の限界**: Takens の埋め込み定理が示唆するように、十分に長い履歴があれば単変量モデルが多変量の構造を捉えられる。これが多変量タスクで ICL のゲインが小さい理由と解釈される - **合成データの重要性**: 多変量 ICL 能力は実世界データなしに合成データだけで付与可能であり、今後 TSFM の事前学習においてリアルデータの必要性が下がる可能性がある - **将来の方向性**: テキスト等のマルチモーダル入力への拡張、スパースメタデータや密な埋め込みによるグループ形成(検索拡張予測) ## 強み / 弱点・課題 ### 強み - 単変量・多変量・共変量付き予測の 3 モードを単一モデル・単一推論パスで処理できる初の TSFM - 合成データだけで多変量 ICL を付与できる訓練戦略 - $O(V)$ のメモリスケーリングで高次元多変量にも対応 - 3 つの主要ベンチマーク全てで SOTA、かつ統計的有意 - 推論効率が高い(300 系列/秒、A10G 単機) ### 弱点・課題 - 共変量はカテゴリカルまで対応するが、テキストなどのマルチモーダル入力には未対応 - GIFT-Eval の訓練コーパスとの部分的なデータ重複(テスト部分は除外済みだが、厳密ゼロショットを見たい場合は Chronos-2-Synth が参照) - 多変量タスクでの ICL ゲインが小さく、強い univar ベースラインを大きく上回れない状況 - 技術レポート形式のため査読なし ## 関連 - エンティティ: [[Chronos-2]] / [[Amazon Web Services]] / [[fev-bench]] / [[GIFT-Eval]] - 概念: [[時系列基盤モデル]] / [[多変量時系列予測]] - 既存 papers/ ノートとの関係: [[Toto]] / [[TimesFM]] / [[Falcon-X]] が比較対象として登場 ## 出典 - arXiv:2510.15821v1 [cs.LG] 17 Oct 2025 - github.com/amazon-science/chronos-forecasting