@2023__arXiv__TimeGPT-1 - yuuk1's Digital Garden

> [!abstract] 概要(abstract 日本語訳) > 本論文では TimeGPT を紹介する。時系列向け初のファウンデーションモデルであり、訓練中に見たことのない多様なデータセットに対して正確な予測を生成できる。事前学習済みモデルを確立された統計的・機械学習的・深層学習的手法と比較評価し、TimeGPT のゼロショット推論が性能・効率・シンプルさのすべてで優れることを示す。本研究は、人工知能の他のドメインから得た知見を時系列解析に効果的に適用できるという強力な証拠を提示する。大規模時系列モデルは、現代の深層学習の進歩を活用することで、精密な予測へのアクセスを民主化し不確実性を低減する格好の機会を提供すると結論づける。 ## 論文情報 - **タイトル**: TimeGPT-1 - **著者**: [[Azul Garza]]・[[Cristian Challu]]・[[Max Mergenthaler-Canseco]](いずれも [[Nixtla]]、サンフランシスコ) - **媒体**: arXiv プレプリント - **arXiv ID**: 2310.03589 - **投稿日**: 2023-10-05(v1)、2024-05-27(v3) - **ページ数**: 12 - **コード/API**: Python SDK と REST API で提供(nixtla.io / `nixtla` パッケージ) ## 概要 TimeGPT は時系列向けとして最初に発表されたファウンデーションモデルである。エンコーダ・デコーダ Transformer を 1,000 億点超の多ドメイン時系列で事前学習し、再訓練なしのゼロショット推論で統計・機械学習・深層学習ベースラインを月次 rMAE 0.727 で上回り top-3 に入る。推論は 0.6 ms/系列と統計手法の 1/1000 の速度であり、コンフォーマル予測による分布仮定不要の予測区間も備える。 ## 問題設定 - **入力**: 対象時系列の過去値 $y_{0:t}$ と任意の外生変数 $x_{0:t+h}$ - **出力**: 予測ホライズン $h$ 先の条件付き分布 $P(y_{t+1:t+h} \mid y_{0:t}, x_{0:t+h})$ - **前提**: 推論時に対象系列の訓練・fine-tuning を行わない(ゼロショット) ## 提案手法 ### アーキテクチャ Vaswani+2017 の Transformer に基づくエンコーダ・デコーダ構造。 - 局所的な位置エンコーディング(positional encoding)で入力ウィンドウを補強 - 残差結合と層正規化を持つ複数層 - デコーダ出力を予測ウィンドウ次元に写像する線形層 - 異なる周波数・入力サイズ・予測ホライズンに対応 - LLM を転用した設計ではなく、**時系列専用に設計・訓練**されている ### 事前学習データ公開時系列コレクションとして最大規模(著者らの知る限り)の **100B 点超** を使用。 - ドメイン: 金融・経済・人口統計・医療・気象・IoT センサー・エネルギー・ウェブトラフィック・小売・交通・銀行 - 時間パターン: 多種の季節性・周期・トレンドを含む - ノイズ・外れ値の多様性も含む - 欠損値の補完と書式統一のみ実施し、生に近い形で取り込む ### 訓練 - NVIDIA A10G GPU クラスタで数日間学習 - PyTorch 実装、Adam オプティマイザ + 学習率減衰(最終的に初期値の 12% へ) - GPT-3(Brown+2020)と同様に、大きいバッチサイズと小さい学習率が有効だった ### 不確実性定量化(コンフォーマル予測) コンフォーマル予測(Shafer & Vovk, 2008)を用いて分布仮定不要な予測区間を生成する。 - 推論時に対象系列の最新データでローリング予測を実施し誤差を推定 - 事前指定したカバレッジ精度(例: 95%)を保証する予測区間を構成 - モデル・ドメインを問わず適用可能 **Figure 1: 図** ![[_attachments/arxiv-2310.03589/fig1-figure.png]] (Figure 1. Illustration of single series forecasting and multiple series forecasting を示す。) **Figure 2: 図** ![[_attachments/arxiv-2310.03589/fig2-figure.png]] (Figure 2. TimeGPT was trained in the largest collection of publicly available time series, and can forecast unseen time series wit を示す。) **Figure 3: 図** ![[_attachments/arxiv-2310.03589/fig3-figure.png]] (Figure 3. Inference of new time series. TimeGPT takes the historical values of the target values and additional exogenous variable を示す。) **Figure 4: モデル構成** ![[_attachments/arxiv-2310.03589/fig4-model.png]] (Figure 4. Relative Mean Absolute Error (rMAE) for TimeGPT and various groups of models for montly frequency. Each bean in the plot に関するモデル構成を示す。) ## 新規性 ### 既存手法の課題 - 統計手法(ARIMA・ETS・Theta)や機械学習手法(LightGBM・XGBoost)は系列ごとの訓練が必要で計算コストが高い - 深層学習手法(N-HiTS・TFT・NHITS)は大規模データで強力だが、やはり系列ごとまたはデータセットごとの訓練を要する - 時系列分野は「大規模事前学習による汎用モデル」が NLP・CV と比べて未開拓だった ### 本研究の解決大規模多ドメインデータで事前学習した単一モデルがゼロショットで全頻度にわたり最上位の精度を達成し、訓練パイプラインを推論ステップに圧縮することで計算コストと実装複雑度を大幅に削減した。 ## 実験設定 - **テストセット**: 訓練中に未見の系列 **30 万件超**。金融・ウェブトラフィック・IoT・気象・需要・電力を含む多ドメイン - **評価粒度**: 最後の予測ウィンドウ(月次 12 ステップ・週次 1・日次 7・時間別 24)で評価 - **評価指標**: 相対 MAE(rMAE)と相対 RMSE(rRMSE)。ともに季節ナイーブモデルを分母に正規化(スケール非依存) - **ベースライン(統計)**: ZeroModel・HistoricAverage・SeasonalNaive・Theta・DOTheta・ETS・CES・ADIDA・IMAPA・CrostonClassic - **ベースライン(機械学習/深層学習)**: LGBM・LSTM・DeepAR・TFT・NHITS - 統計手法は系列ごとに個別訓練、機械学習・深層学習は周波数ごとのグローバルモデル ## 実験結果 **ゼロショット推論の主要評価結果（要約、rMAE / rRMSE、値が小さいほど良い）** | モデル | 月次 rMAE | 週次 rMAE | 日次 rMAE | 時間別 rMAE | |--------|-----------|-----------|-----------|-------------| | ZeroModel | 2.045 | 6.075 | 2.989 | 10.255 | | SeasonalNaive | 1.000 | 1.000 | 1.000 | 1.000 | | ETS | 0.942 | 1.079 | 0.944 | 0.998 | | TFT | 0.752 | 0.954 | 0.817 | 1.120 | | NHITS | 0.738 | 0.883 | 0.788 | 0.829 | | **TimeGPT** | **0.727** | **0.878** | **0.804** | **0.852** | TimeGPT は全 4 頻度でアンダーラインを含む top-3 にランク入りする(太字が最良、下線が 2 位)。月次では全モデル最良の rMAE 0.727。時間別は 0.852 で NHITS(0.829)・LGBM(0.733)に次ぐ 3 位だが、統計手法・深層学習の大半を上回る。 **推論速度** - TimeGPT: **0.6 ms/系列** - 統計手法(Numba 並列): 600 ms/系列 - グローバル深層学習モデル(LGBM・LSTM・NHITS 等): 57 ms/系列 TimeGPT はゼロショットのため訓練ゼロ。系列ごとの学習不要で 1,000 倍以上の速度優位。 **fine-tuning** Figure 5 のとおり、fine-tuning ステップを増やすにつれ rMAE が 0.820 → 0.780 以下へ改善する。ゼロショットを超えた精度向上が可能。 **Table 1: モデル構成** ![[_attachments/arxiv-2310.03589/table1-model.png]] (Table 1. Main performance results for TimeGPT に関するモデル構成を示す。) ## 考察 - スケーリング則はデータ規模・モデル規模の双方で成立する(GPT-3・Zalando・Alibaba・Amazon の事例と一致) - 「大規模データではシンプルなモデルが勝つ」という主張(Zeng+2023 など)は小規模データ設定の話であり、大規模データでは Transformer の優位が成立する - 将来課題として「情報を加えた予測(物理法則・経済原理の組み込み)」と「時系列埋め込み(系列間類似度の計量)」を挙げる - マルチモーダル(テキスト・動画)・マルチテンポラル基盤モデルへの展開を展望 ## 強み - **ゼロショット精度**: 再訓練不要で既存の個別学習モデルを月次 rMAE で上回る - **圧倒的な速度**: 0.6 ms/系列で運用コストを大幅に削減 - **実装の単純さ**: `nixtla_client.forecast(data)` の数行で利用可能 - **分布フリーな予測区間**: コンフォーマル予測で外部ライブラリ依存なく不確実性推定 ## 弱点・課題 - モデルの重み・訓練データは非公開(クローズドモデル) - 時間別テストでは LGBM(0.733)・NHITS(0.829)に rMAE で劣り、全頻度で最良ではない - 他のファウンデーションモデルとの比較節(§6.1.1)が "Work in progress" と未完成のまま - テストセットのホライズン設定(月次 12 等)はより広い検証が今後の課題と自認 - 外生変数対応・異常検知などの拡張は付録で言及するが本論文の評価対象外 ## 関連 - 概念: [[時系列基盤モデル]] / [[多変量時系列予測]] / [[時系列トークナイゼーション]] - エンティティ: [[Azul Garza]] / [[Cristian Challu]] / [[Max Mergenthaler-Canseco]] / [[Nixtla]] - 後続ソース: [[@2024__arXiv__Chronos Learning the Language of Time Series]] / [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] / [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]] ## 出典 - `.raw/papers/arxiv-2310.03589.pdf`(arXiv:2310.03589 v3) - `https://arxiv.org/html/2310.03589`(書誌・abstract 確認)