GIFT-Eval - yuuk1's Digital Garden

# GIFT-Eval ## 定義 GIFT-Eval(Aksu+, 2024、arXiv:2410.10393)は、汎用時系列予測モデル評価のためのベンチマーク。15 個の単変量データセットと 8 個の多変量データセットからなり、7 ドメイン・10 周波数を跨ぐ。総計 144,000 系列・1.77 億観測点。([[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] からの言及) ## 役割・位置づけ - 予測長はデータセット・周波数・ドメインに応じ短期(48 ステップ)・中期(10×)・長期(15×)に分け、計 97 構成。性能は構成間の幾何平均で報告。MASE・CRPS で評価。 - web/cloudops ドメインに BizITObs(Application/Service/L2C)・Bitbrains 等の観測系時系列を含む。 - [[Falcon-X]] はここで 0.666 MASE / 0.453 CRPS の全体最高を達成。Falcon-X の事前学習コーパスは GIFT-Eval の事前学習部分も利用するが、テストとのリークを避ける選定をしたと記載。 - [[Toto]]/[[BOOM]] 論文でも汎用ベンチマークとして参照され、観測データ特化ベンチマーク BOOM(約 158M 観測点)と対比される。 - [[TimeCopilot]]([[@2025__arXiv__TimeCopilot]])はここで MedianEnsemble([[Chronos-2]]+[[TimesFM]]+[[TiRex]] を isotonic regression で結合)が確率予測 CRPS の平均ランク・平均スコアで全体最良を達成(点予測 MASE では Chronos-2 に次ぐ 2 位)。約 $24 の GPU 分散推論という低コストで、再現可能性を保ちつつ達成したと報告。同論文は GIFT-Eval を「24 データセット・144,000 以上の時系列・1.77 億データ点」と記述する。 - [[@2025__arXiv__Cisco Time Series Model Technical Report]] では事前学習コーパス(構成比 29.5%)としても評価ベンチマークとしても使われる。同論文は TimesFM 2.0 の学習コーパスに含まれるデータセットを除いた「non-leaking」版で評価し、コンテキスト ≥ 512 の長コンテキスト部分集合と全体を分けて報告する(leakage 排除と長コンテキスト評価の工夫)。 ## Chronos-2 での評価結果 Chronos-2(arXiv:2510.15821)の GIFT-Eval 評価(97 タスク)では以下の結果が報告された。([[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]]) - **WQL(Weighted Quantile Loss)**: Win Rate 81.9%・Skill Score 51.4% で全モデル首位。 - **MASE**: Win Rate 83.8%・Skill Score 30.2% で同様に首位。 - いずれも TiRex・TimesFM-2.5 を上回る。 ## Toto 2.0 での評価結果 Toto 2.0(arXiv:2605.20119)の GIFT-Eval 評価では以下の結果が報告された。([[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) - **ゼロショット評価**: 上位 3 位を Toto 2.0(2.5B・1B・313M)が独占。 - **ファインチューニング(FnF アンサンブル)**: 「Family and Friends」アンサンブルが全体 1 位を達成。 - **メタ学習器**: XGBoost + tsfeatures を用いたメタ学習器において、Toto 2.0 ファミリーが平均 39% の重みを担う。これは Toto 2.0 が単独モデルとしてだけでなく、アンサンブル戦略においても基幹的役割を果たすことを示す。 ## 関連 - エンティティ: [[Falcon-X]]・[[Chronos-2]]・[[Toto]]・[[TimesFM]]・[[TiRex]](評価対象モデル)/ [[TimeCopilot]](アンサンブルで SOTA)/ [[fev-bench]]・[[BOOM]]・[[TIME]](関連 benchmark) - 概念: [[時系列基盤モデル]] / [[多変量時系列予測]] / [[エージェント型時系列予測]] - ソース: [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] / [[@2025__arXiv__Cisco Time Series Model Technical Report]] / [[@2025__arXiv__TimeCopilot]] / [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] / [[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]] ## 出典 - [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] - [[@2025__arXiv__Cisco Time Series Model Technical Report]](事前学習コーパス兼 non-leaking 評価ベンチマーク) - [[@2025__arXiv__TimeCopilot]](MedianEnsemble が CRPS 全体最良を低コストで達成) - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]](ゼロショット上位 3 位・FnF アンサンブル 1 位・メタ学習器 39%) - [[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]](WQL Win Rate 81.9%・Skill Score 51.4%・MASE Win Rate 83.8% で全モデル首位)