fev-bench - yuuk1's Digital Garden

# fev-bench ## 定義 fev-bench(Shchur+, 2025、arXiv:2509.26468)は、現実的な時系列予測のためのベンチマーク。計 100 個の予測タスクからなり、マクロ経済・エネルギー・小売・疫学・公衆衛生・環境監視・データベース運用など多様なドメインを含む。([[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] からの言及) ## 役割・位置づけ - データ源カテゴリ: GIFT-Eval 由来、マクロ経済(FRED-MD/QD・GVAR 等)、エネルギー、**BOOMLET**(= [[BOOM]] の部分集合。1 分以上の周波数の観測データのみ保持)、予測コンペ(M5・Favorita・Rossmann 等)、その他(Redset の Amazon Redshift クエリ数等)。 - クラウドドメインに BOOMLET 系列(変量数 21〜100 と高次元)と Redset を含み、観測系の多変量タスクを供給。 - [[Falcon-X]] は 0.652 MASE / 0.490 CRPS で [[Chronos-2]](0.645 / 0.485)に僅差の次点。ただし Falcon-X は共変量を使わず内生ターゲット系列のみに依拠する設定差がある。 - Chronos-2 は fev-bench 100 タスクで Win Rate 90.7%・Skill Score 47.3% を達成し、TiRex(80.8%)・TimesFM-2.5(75.9%)・Toto-1.0(66.6%)を大差で上回る(pairwise win rate の 95% CI が全比較で 50% を超え統計的有意)。特に共変量付き 42 タスクで ICL のゲインが最大(univar 39.9 → ICL あり 47.0)。ベンチマーク設計者である [[Oleksandr Shchur]] が同時に Chronos-2 の共同筆頭著者でもある点は注意。([[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]]) ## 関連 - エンティティ: [[Falcon-X]]・[[Chronos-2]](評価対象)/ [[BOOM]](BOOMLET の母体)/ [[GIFT-Eval]](構成要素)/ [[Oleksandr Shchur]](設計者兼 Chronos-2 著者) - 概念: [[時系列基盤モデル]] / [[多変量時系列予測]] - ソース: [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] / [[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]] ## 出典 - [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]] - [[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]](Win Rate 90.7%・Skill Score 47.3% で全モデル首位)