@2025__arXiv__Foundation Models for Time Series - A Survey

> [!abstract] 概要(arXiv abstract の日本語訳) > Transformer ベースの基盤モデルは時系列分析の支配的なパラダイムとして台頭し、予測・異常検知・分類・トレンド分析をはじめとする多くの時系列分析タスクでこれまでにない能力を提供している。本サーベイは、最先端の事前学習済み基盤モデルの現状を包括的に概観し、それらを複数の次元で分類する新しいタクソノミーを導入する。具体的には、モデルをアーキテクチャ設計で分類し、パッチベース表現を用いるものと生の系列を直接処理するものを区別する。タクソノミーはさらに、モデルが確率的予測と決定論的予測のどちらを提供するか、単変量時系列向けに設計されているか、それとも追加処理なしに多変量時系列を扱えるかを含む。加えて、タクソノミーはモデルの規模と複雑さを包含し、軽量アーキテクチャと大規模基盤モデルの違いを際立たせる。本サーベイ独自の点は、訓練段階で用いられる目的関数の種類による分類である。これらの観点を統合することで、本サーベイは研究者と実務者にとっての資料となり、現在の動向への洞察を提供し、Transformer ベースの時系列モデリングにおける将来研究の有望な方向性を示す。 ## 論文情報 - **タイトル**: Foundation Models for Time Series: A Survey - **著者・所属**: Siva Rama Krishna Kottapalli・Karthik Hubli・Sandeep Chandrashekhara([[Dell Technologies]], Hopkinton, MA)/ Garima Jain・Sunayana Hubli・Gayathri Botla(University of Massachusetts Lowell)/ Ramesh Doddaiah(Worcester Polytechnic Institute)。全著者が equal contribution。 - **媒体**: arXiv プレプリント(cs.LG)。ACM Conference 体裁(本文中の会議名・DOI はプレースホルダのまま `Conference'17` / `10.1145/nnnnnnn.nnnnnnn`)。 - **発表年**: 2025-04-05(arXiv:2504.04011v1) - **arXiv ID**: 2504.04011 / 20 ページ ## 概要時系列分析における Transformer ベースの事前学習済み基盤モデル(TSFM)を体系化するサーベイ。RNN/LSTM/GRU から Transformer への変遷を概観したうえで、15 の代表的 TSFM を 6 次元のタクソノミーで分類する。最大の主張は、既存サーベイが見落としてきた**目的関数(objective function)による分類軸**を導入し、アーキテクチャ・パッチ戦略・単変量/多変量・確率的/決定論的・規模と合わせて TSFM の設計空間を整理した点にある。 ![[Pasted image 20260615204201.png]] **Figure 3: 図** ![[_attachments/arxiv-2504.04011/fig3-figure.png]] (Figure 3. Seasonal Decomposition of Airline Passenger Data: Trend, Seasonality, and Residuals. Trend reflects the long- term direc を示す。) **Figure 5: 図** ![[_attachments/arxiv-2504.04011/fig5-figure.png]] (Figure 5. Transformer – Scaled Dot-Product Attention (left) and Multi-Head Attention (right) from “Attention Is All You Need” pape を示す。) **Figure 2: 図** ![[_attachments/arxiv-2504.04011/fig2-figure.png]] (Figure 2. Intraday 5-Minute Price Movements of Apple (AAPL) を示す。) ## 問題設定 TSFM の急増により、フィールドの整理と理解が困難になっている。既存サーベイ(Zhang+ 2024・Liang+ 2024・Miller+ 2024 ほか)は時系列予測の広い概観や特定応用に焦点を当てるが、モデルアーキテクチャ・訓練パラダイム・その他の重要な分類次元を深く掘り下げていない。著者は、設計選択を体系的に比較し研究ギャップを特定するための**詳細なタクソノミーの欠如**を中心課題に据える。入力は既存 TSFM 群(論文・公開モデル)、出力はそれらを分類する 6 次元の枠組みと、モデル横断の比較表である。 **Figure 1: モデル構成** ![[_attachments/arxiv-2504.04011/fig1-model.png]] (Figure 1. Traditional approaches to time series analysis have largely relied on statistical methods [25], [26], such as Moving Ave に関するモデル構成を示す。) **Figure 7: 図** ![[_attachments/arxiv-2504.04011/fig7-figure.png]] (Figure 7. Anomaly Detection in Time Series Data: Identifica- tion of Anomalies Highlighted by Red Dots を示す。) ## 提案手法(6 次元タクソノミー) 本サーベイの中核は Figure 8 の 6 次元タクソノミー。各次元は以下。 - **アーキテクチャ設計**: Transformer の使い方で 5 系統に大別する。 - **Non-Transformer**: Tiny Time Mixers(TTM)のみ。TSMixer ベースの軽量 MLP で、adaptive patching と multi-resolution sampling、resolution prefix tuning を持つ。 - **Encoder-decoder**: TimeGPT(positional encoding + multi-head attention + CNN 層、zero/few-shot)。 - **Encoder-only**: MOMENT(masked time-series prediction で事前学習、Time Series Pile)/ MOIRAI(masked encoder + any-variate attention で確率的多変量予測)。 - **Decoder-only**: Timer-XL・Time-MOE・[[Toto]]・Timer・TimesFM([[TimesFM]])・Lag-Llama。次パッチ/次トークンの自己回帰生成。 - **Adapting LLM**: Chronos(T5 ベース)・AutoTimes・LLMTime・Time-LLM(reprogramming)・FPT(Frozen Pretrained Transformer)。既存の言語/画像モデルを時系列へ転用する。 - **パッチ有無**: パッチベース(系列を固定長セグメント=トークン化)か非パッチか。TTM・Timer-XL・Toto・MOMENT・MOIRAI・AutoTimes・Timer・TimesFM・Time-LLM・FPT はパッチベース。Time-MOE(point-wise)・TimeGPT・Chronos(値の binning)・Lag-Llama(lag 特徴)・LLMTime(数字列)は非パッチ。 - **目的関数(本サーベイ独自軸)**: MSE(TTM・Timer-XL・MOMENT・AutoTimes・Timer・TimesFM・Time-LLM・FPT)/ Huber + Auxiliary(Time-MOE。expert balance のための auxiliary loss、[[Mixture-of-Experts]] のルーティング崩壊回避)/ Negative Log-Likelihood(Toto・Lag-Llama)/ Cross Entropy(Chronos。量子化ラベルとの交差エントロピー)/ Log-Likelihood(MOIRAI)。LLMTime は事前学習せず目的関数を持たない。 - **単変量/多変量**: out of the box で多変量を扱えるか。Both: TTM・Timer-XL・Time-MOE・Toto・MOIRAI・AutoTimes・Time-LLM。Univariate: TimeGPT・Chronos・MOMENT・Timer・TimesFM・Lag-Llama・LLMTime・FPT。詳細は [[多変量時系列予測]] に集約。 - **確率的/決定論的**: 確率的(分布出力で不確実性を定量化): Toto・Chronos・TimeGPT・MOIRAI・Lag-Llama・LLMTime。決定論的(点予測): TTM・Timer-XL・Time-MOE・MOMENT・AutoTimes・Timer・TimesFM・Time-LLM・FPT。 - **モデル規模と複雑さ**: 1M(TTM)から 2.4B(Time-MOE)、LLM 適応系は LLaMA-70B 級まで。 ![[Pasted image 20260604112748.png]] ## モデル比較表(Table 2 の転記) (Table 2. Comparison of Time Series Models: Architectures, Parameters, and Characteristics) | Model | Architecture | Uni/Multi | Parameters | Data points | Patch | Loss | Probabilistic | |---|---|---|---|---|---|---|---| | Tiny Time Mixers | Non-Transformer | Both | 1M | 1B | Yes | MSE | No | | Timer-XL | Decoder | Both | Unknown | 1B | Yes | MSE | No | | Time-MoE | Decoder | Both | 2.4B | 309B | No | Huber | No | | [[Toto]] | Decoder | Both | 103M | 1T | Yes | Neg Log-likelihood | Yes | | TimeGPT | Encoder-Decoder | Univariate | Unknown | 100B | No | Unknown | No | | Chronos | Encoder-Decoder | Univariate | 8M/46M/201M/710M | 84B | No | Cross Entropy | Yes | | MOMENT | Encoder | Univariate | 40M/125M/385M | 1.13B | Yes | MSE | No | | MOIRAI | Encoder | Both | 14M/91M/311M | 27B | Yes | Log-likelihood | Yes | | AutoTimes | LLM | Both | GPT-2/OPT-350M/LLaMA-7B | (LLM 依存) | Yes | MSE | No | | Timer | Decoder | Univariate | 29M/50M/67M | 28B | Yes | MSE | No | | [[TimesFM]] | Decoder | Univariate | 200M | 100B | Yes | MSE | No | | Lag-Llama | Decoder | Univariate | 200M | 352M | No | Neg Log-likelihood | Yes | | LLMTime | LLM | Univariate | LLaMA-70B/GPT-3/4 | (LLM 依存) | No | Unknown | Yes | | Time-LLM | LLM | Both | LLaMA-1 70B/GPT-3 | (LLM 依存) | Yes | MSE | No | | FPT | LLM | Univariate | GPT-2/BERT/BEiT | (LLM 依存) | Yes | MSE | No | > [!note] 本サーベイ内の記述の揺れ > MOMENT は Table 2 では Univariate だが、§4.1.3 では「各チャネルを独立処理することで多変量にも柔軟」と述べる。著者自身 §4.4.1 で「MOMENT は out of the box では単変量のみ」と整理しており、表の分類が「追加処理なしで扱えるか」を基準とする。TimesFM のデータ点数は表で 100B、本文 §4.6 では 200B と食い違う。 ## 新規性 - **目的関数による分類**: 既存サーベイがアーキテクチャや応用で TSFM を切るのに対し、訓練の目的関数(MSE/Huber/NLL/Log-Likelihood/Cross Entropy)で分類する初の試みと位置づける。目的関数が「一般化能力」と「タスク適合性」を左右する(MSE は回帰の点予測、NLL は不確実性モデリング)という観点を整理する。 - **6 次元の統合**: アーキテクチャ・パッチ・目的関数・単変量/多変量・確率的/決定論的・規模を一枚の Figure 8 に統合し、モデル選択の意思決定を支援する枠組みを提供する。 ## 考察(ISSUES — 各モデルの限界) §5 は個別モデルの限界を列挙する。主な指摘: - **TTM**: 予測タスク専用で分類・回帰・異常検知を out of the box で持たない。非 Transformer ゆえコンテキスト長に敏感で、コンテキスト長設定ごとに別モデルの訓練が必要。点予測のみ。 - **Timer-XL**: 長期予測で反復生成が必要で誤差累積・出力長の硬直性。多解像度パッチを持たない。 - **Toto**: 事前学習データが [[Datadog]] の内部生成データ。 - **TimeGPT**: 負荷予測で履歴データが乏しいと性能低下、fine-tuning が必須。外部要因(NWP データ等)の取り込みができない。 - **Chronos**: 長系列・大規模データでトークン化と自己回帰サンプリングが資源集約的。 - **MOMENT**: 医療など高リスク応用で訓練データのバイアスが予測を歪める。正規化が垂直シフトした系列の差異を覆い隠す。解釈性の欠如。 - **MOIRAI**: 資源制約でハイパーパラメータ調整が限定的。cross-frequency 学習の multi-patch size がヒューリスティック。高次元時系列でのスケーラビリティ不足。 - **AutoTimes**: 確率的予測に非対応(潜在埋め込みへ写像)。マルチモーダル時系列(ニュース+株価等)への柔軟性不足。 - **Lag-Llama / TimesFM / Timer**: 多変量・確率的予測・長期予測の制約。 - **LLMTime / Time-LLM / FPT**: コンテキスト窓の制限、LLM の算術・再帰演算の弱さ、ドメイン知識の不足。FPT は N-BEATS にゼロショットで劣るデータセットがある。 §6(結論)では TSFM 共通の課題を **モデル規模と計算効率のトレードオフ・長期依存・解釈性・データ効率**に整理し、将来方向としてハイブリッドアーキテクチャ・高度な attention・自己教師あり学習・ドメイン知識/物理情報の統合・強化学習を挙げる。 ## 強み / 弱点・課題 - **強み**: 15 モデルを 6 次元で横断比較する一枚絵(Figure 8)と比較表(Table 2)は、モデル選択の実務的指針として有用。目的関数軸の導入は他サーベイにない視点。RNN→Transformer→TSFM の歴史的文脈の整理が丁寧。 - **弱点・課題**: サーベイ独自の定量評価や統一ベンチマークでの再評価はなく、各モデルの記述は原論文の主張の二次的要約にとどまる。本文内に分類の揺れ(MOMENT の単変量/多変量、TimesFM のデータ点数)と未確定の媒体情報(ACM プレースホルダ)が残る。観測/運用ドメイン(observability)の特性や評価軸への踏み込みはなく、vault が持つ [[Toto]]/[[Falcon-X]] 系の観測特化の議論はカバーしない。謝辞に ChatGPT-4o を文章校正に使用と明記。 > [!contradiction] [[Toto]] のパラメータ数・事前学習データ点数が既存 wiki と食い違う > 本サーベイは [[Toto]] を **103M パラメータ・事前学習 1 兆点**(Table 2)とする。一方 vault の [[Toto]] ページと [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] は **151M パラメータ・約 2.36 兆点**とする。本サーベイ(2025-04)は Toto の初期 arXiv 版(2407.07874, 2024-07)を参照しており、NeurIPS 2025 版は更新版であるため、**モデルバージョンの差**による不一致と見られる。要確認。 > [!note] 本サーベイの「Chronos」は初代(2024)で、vault の [[Chronos-2]] とは別世代 > 本サーベイが扱う Chronos(Ansari+ 2024、arXiv:2403.07815)は T5 ベースの encoder-decoder・量子化 + Cross Entropy・単変量である。vault が entity 化している [[Chronos-2]](Ansari+ 2025、arXiv:2510.15821、group attention で多変量・in-context learning)はその後継で、設計が大きく異なる。混同しないこと。