Gemini 3 Deep Researchより # **時系列基盤モデル(TSFM)の最前線:アーキテクチャの進化、評価パラダイムの転換、およびエージェント化への統合的展望** ## **序論:時系列解析における「BERTモーメント」の真偽と現在地** 2025年から2026年初頭にかけて、人工知能の研究コミュニティは時系列解析領域における歴史的な転換点を迎えている。自然言語処理(NLP)やコンピュータビジョン(CV)の分野で圧倒的な成功を収めた基盤モデル(Foundation Models: FMs)の概念が時系列データに本格的に適用され、過去1年間だけでも20を超える新しい時系列基盤モデル(Time Series Foundation Models: TSFMs)が提案された 1。これらのモデルは、数十億から数千億のデータポイントからなる巨大で多様なデータセットを用いて事前学習され、未知のドメインに対する強力なゼロショット予測能力や少数ショット学習能力を発揮することが期待されている 2。 しかしながら、2025年12月に開催された権威ある国際会議NeurIPSのワークショップ「Recent Advances in Time Series Foundation Models: Have We Reached the 'BERT Moment'?(我々は時系列におけるBERTの瞬間に到達したか?)」での徹底的な議論が浮き彫りにしたように、学界および産業界の評価は依然として複雑であり、単純な熱狂とは一線を画している 1。NLPにおいてBERTが登場した際に見られたような、単一の汎用モデルがすべての下流タスクにおいて既存手法を圧倒的に凌駕する状況には至っていないのが現状である。実際、多くの実世界のシナリオにおいて、慎重に設計された軽量な教師あり機械学習ベースラインモデルや、従来の古典的な統計モデル(ARIMAやETSなど)が、依然として最新の巨大TSFMと同等、あるいはそれ以上の性能を示すケースが多数報告されている 1。さらに、時系列専用ではない表形式データ向けの基盤モデル(Tabular FMs)がTSFMに匹敵する性能を叩き出す事例も確認されており、時系列データ特有の帰納的バイアス(Inductive bias)をどのようにアーキテクチャに組み込むべきかという根本的な問いが再燃している 1。 本レポートは、2026年現在のTSFMに関する最新の研究動向を網羅的かつ批判的に分析するものである。モデルアーキテクチャの進化(デコーダ専用Transformerから状態空間モデル、そしてMixture-of-Expertsへの移行)、インコンテキスト学習による少数ショット適応メカニズム、生成的アプローチによる確率的モデリング、マルチモーダル化とエージェント型AIへの統合、そして現在の研究コミュニティが直面している極めて深刻な「評価指標の危機(データリーケージとベンチマークの欠陥)」について、第二・第三の洞察を交えながら深掘りし、次世代の時系列解析が向かうべき方向性を提示する。 ## **時系列アーキテクチャの系譜とパラダイムシフト** 初期のTSFMは、時系列データをテキストトークンのように扱い、既存の大規模言語モデル(LLM)のアーキテクチャをそのまま転用するアプローチ(例えばLLMTimeなど)が主流であった 3。しかし、言語データの離散的性質と時系列データの連続的・多変量的な性質との間の決定的な乖離が明らかになるにつれ、2026年現在では時系列データ特有の動態に特化したネイティブなアーキテクチャが次々と開発されている。 ### **デコーダ専用自己回帰モデルの台頭とコンテキストの拡張** 時系列予測における自己回帰的モデリングの強力な基盤として、デコーダ専用(Decoder-only)のTransformerアーキテクチャが確固たる地位を築いている。Google Researchが開発しICML 2024で発表されたのち、継続的に強化されている「TimesFM」は、このアプローチの先駆的な代表格である。TimesFMは、Google内部のトラフィックデータやWikipediaのページビューなど、1000億規模の現実世界の時系列ポイントを含むコーパスで事前学習された2億パラメータのモデルである 3。このモデルの技術的革新は、連続する32の時系列ポイントを単一の「パッチ」としてトークン化し、多層パーセプトロン(MLP)を介してTransformer層に入力する点にある。さらに、入力パッチ長よりも長い出力パッチ長(例えば入力32に対して出力128)を生成する非対称な設計を採用することで、自己回帰生成における誤差の累積(Error accumulation)を構造的に防ぎ、長期予測性能を劇的に向上させている 3。 TimesFMの成功を受け、ICLR 2025で発表された「Timer-XL」は、このデコーダ専用パラダイムをさらに進化させ、極めて長いコンテキストを処理するために最適化された因果的デコーダ(Causal Decoder)を提示した 6。従来のエンコーダ型モデルが数千ステップに及ぶ長文脈予測において性能劣化(Context bottleneck)を引き起こすのに対し、Timer-XLは多変量の「次のトークン予測(Multivariate Next Token Prediction)」を独立して行いながら、変数間の相関を捉えるという離れ業をやってのける 7。この実現の鍵となるのが、新たに提案された「TimeAttention」メカニズムである。TimeAttentionは、クロネッカー積(Kronecker-based)ベースのマスキングを導入することで、時間的因果律を厳密に維持しつつ、計算量を抑えながら多変量間の複雑な相互作用(チャネル依存の学習)を可能にする 7。また、特殊化された位置エンコーディングにより、時間軸に対しては年代順を保持しつつ、変数軸に対しては順序等価性(Permutation-equivalence)を持たせることで、変数の入力順序による不合理なバイアスを完全に排除している。これにより、Timer-XLは非定常な単変量系列から、複雑なダイナミクスを持つ多変量系列、さらには外生変数を含む共変量情報付きコンテキストまでを、アーキテクチャの変更なしに統一的に処理する「One-for-all」の予測器として機能する 7。 | アーキテクチャパラダイム | 代表的なモデル | 核心となる技術的メカニズム | 主な利点と実用上の洞察 | | :---- | :---- | :---- | :---- | | **デコーダ専用パッチング** | TimesFM | 非対称パッチ生成 (入力 \< 出力) | 生成ステップ数を削減し、長期予測時の自己回帰エラーの累積を最小化する 3。 | | **長文脈因果デコーダ** | Timer-XL | TimeAttention & 順序等価位置エンコーディング | 数千トークンの長期依存性をモデル化しつつ、変数の入力順序に依存しない多変量予測を実現する 6。 | | **言語モデル変換 (量子化)** | Chronos-2 | T5ベースの時系列量子化と言語モデリング | 既存のLLMエコシステム(Hugging Face等)と高い互換性を持ち、単一GPUで秒間300以上の予測を処理可能 5。 | ### **言語モデルベースの量子化と周波数分解アプローチ** デコーダ専用モデルが時系列ネイティブな表現を追求する一方で、時系列を完全に言語モデリングタスクとして扱うエンコーダ・デコーダ型の量子化アプローチも進化を続けている。Amazonの「Chronos-2」は、T5アーキテクチャをベースとし、時系列の値をスケーリングおよび量子化することで、予測をテキスト生成問題に変換する 5。900万から7億1000万パラメータまでの5つのサイズで展開されるこのモデルファミリーは、単変量から多変量、さらに既知の未来の共変量(Covariates)をサポートするように拡張されており、データセット固有のチューニングをほとんど必要とせずに、チューニング済みの統計モデルを一貫して上回るゼロショット予測を提供する 2。Chronos-2の最大の強みは、その推論効率とエンジニアリングエコシステムへの統合の容易さにある。単一GPUで毎秒300以上の予測を処理できるスループットは、大規模な産業応用において決定的な優位性となる 5。 事前学習における汎用表現の獲得に焦点を当てたもう一つのアプローチとして、「ROSE(Register Assisted General Time Series Forecasting Model)」が挙げられる 9。複数のドメイン(金融、気象、交通など)から集められた異質な時系列データを単一のモデルで学習させる際、ドメイン固有のノイズや周期性が一般的な表現の獲得を阻害するという問題がある。ROSEは「周波数分解学習(Decomposed Frequency Learning)」を事前学習タスクとして導入することでこの問題に対処する 10。周波数空間でのマスキングと再構成を行うことで、時系列データに結合された意味的情報と周期的情報を分離し、ドメインを越えた統一的な表現を獲得する。さらに、「時系列レジスタ(Time Series Register)」という独自のメカニズムによって、事前学習中にドメイン固有の表現をレジスタコードブックとして保持し、下流タスク(特定の企業の売上予測など)において関連するレジスタトークンを選択的に利用することで、極めて少ないデータでの少数ショット(Few-shot)適応を可能にしている 10。 ### **大規模化の限界突破:混合エキスパート(MoE)によるスケーリング** 自然言語処理においてモデルのパラメータ数を飛躍的にスケールさせる原動力となったMixture-of-Experts(MoE:混合エキスパート)アーキテクチャが、時系列モデルにも本格的に導入されている。ICLR 2025でSpotlight(上位5.1%)として採択された「Time-MoE」は、時系列基盤モデルとして初めて24億パラメータという巨大なスケールに到達した画期的なモデルである 12。 時系列データにMoEを適用する合理性は、ドメインの異質性(Heterogeneity)に由来する。時系列データは、ドメインによってノイズレベル、サンプリングレート、周期性、ボラティリティが全く異なる。Time-MoEは、事前学習のために構築された「Time-300B」(9以上のドメインにまたがる3000億超のデータポイント)という史上最大規模のデータセットを用いて学習された 12。このモデルは、入力された時系列パッチの特徴をルーターネットワークが解析し、多数のエキスパートネットワークの中から最適な少数のエキスパートのみを動的にアクティベート(Sparse routing)する。このスパースな活性化メカニズムにより、24億という膨大なパラメータを持ちながらも、推論時の計算負荷とレイテンシを小規模な密(Dense)モデルと同等に抑えることができる 12。エキスパートの崩壊(Expert collapse:特定のエキスパートばかりが使用される現象)を防ぐための高度なルーティング技術も組み込まれており、モデル内部に暗黙的に「高周波トラフィック予測の専門家」や「長期トレンド分析の専門家」が形成されていると推察される 12。 同様の哲学に基づく産業界のアプローチとして、Synthefyの「Migas 1.0」も特筆に値する 14。従来のTSFM(TimesFM、Chronos、Moiraiなど)は、それぞれの事前学習データの分布に強くバイアスがかかる傾向があった。例えば、TimesFMはウェブスケールの行動シグナルに、Chronosは相互依存性が明確な多変量データに、DatadogのTotoはシステム監視(オブザーバビリティ)のトレースにそれぞれ引きずられる傾向がある 14。Migas 1.0は、MoEアプローチを活用することでこれらの分布バイアスを吸収し、ユーザー固有のデータに対して数分以内に適応(ファインチューニング)できる柔軟性を提供しており、GIFT-Evalベンチマークで最高水準の成績を収めている 14。 ## **時系列固有の課題に対する革新的アプローチ:連続時間と不規則サンプリング** 時系列データがテキストや画像と決定的に異なる最大の要因は、データの観測間隔が不均一である「不規則なサンプリング(Irregular sampling)」や、センサーごとに異なる「異なるサンプリングレート(Different sampling rates)」が存在する点にある 15。従来のTransformerベースのモデルは、時間を均等な間隔のステップとして離散的に扱うため、データの欠損や観測間隔の変動に対して極めて脆弱である。この物理的現実の課題に対処するため、2026年の最先端研究は、離散トークンから連続的な状態空間モデル(SSM)への回帰と進化を遂げている。 ### **状態空間モデル(SSM)によるタイムスケール不変性の獲得** IBM Researchが開発しNeurIPS 2025で発表された「FlowState」は、不規則サンプリング問題に対する最も洗練された解答の一つである 18。FlowStateは、従来のTransformerアーキテクチャを完全に捨て去り、制御工学にルーツを持つ状態空間モデル(S5バックボーン)を採用している。 FlowStateの核心的なイノベーションは、その革新的なデコーダ機構にある。エンコーダは入力された時系列データを、特定のサンプリングレートに依存しない抽象的な「隠れ状態(Hidden state)」に変換する。そしてデコーダは、この隠れ状態の各要素を、統計的「基底関数(Basis functions)」の係数として解釈する 18。これにより、FlowStateは離散的な予測ポイントを出力するのではなく、任意の時間間隔でスライス可能な「連続的な予測関数」を生成することができる。結果として、モデルは学習時に一度も見たことのない時間スケール(例えば、毎時のデータで学習したモデルが、毎分や毎日の予測タスクにゼロショットで適応する)に対しても動的に調整し、予測を出力することが可能になる 18。 さらに驚くべきは、FlowStateのパラメータ数がわずか910万であるという事実である 18。これは、数億から数十億のパラメータを誇る競合モデル(Moirai2やTotoなど)の20分の1以下のサイズでありながら、GIFT-Evalのゼロショットリーダーボードで第2位(TimesFMに次ぐ成績)を獲得している 18。この事実は、時系列モデリングにおいて、パラメータの暴力的な拡大よりも、データの物理的特性(連続時間ダイナミクス)に合致したアーキテクチャの誘導バイアス(Inductive bias)がいかに重要であるかを如実に物語っている。また、この圧倒的な軽量性は、IoTデバイスのエッジコンピューティング環境におけるローカル推論を現実のものとする。 ### **局所的情報密度に基づく動的パッチングと粒度適応** サンプリングレートの変動とドメインの異質性に同時に対処する別のアプローチとして、「Kairos」が提案する動的粒度モデリングが挙げられる 19。Kairosは、時系列データ内に存在する「情報の密度の偏り」に着目している。例えば、心電図のデータでは異常な波形が生じている瞬間に情報が集中し、平坦な区間には情報がほとんどない。 Kairosは「Mixture-of-Sizeエンコーダ」という概念を導入し、局所的な情報密度に基づいてパッチサイズを動的に変更する。変化の激しい(揮発性の高い)区間には小さなパッチを割り当てて細かい変動を捉え、安定したトレンド区間には大きなパッチを割り当てて計算の冗長性を省く。ここで技術的に秀逸なのは、「ヌルエキスパート(Null experts)」を利用してアクティブな粒度の数を調整し、モデルの幅や深さを増やすことなくきめ細かい抽象化を達成している点である 19。 さらに、Kairosは時間依存性をモデル化するために「動的回転位置エンコーディング(DRoPE: Dynamic Rotary Position Embedding)」を採用している。標準的なRoPEが固定の時間スケールを使用するのに対し、DRoPEはインスタンスレベルのスペクトル特徴量(周波数成分など)に基づいて時間スケールを変調させる。これにより、毎時測定の電力消費量と日次測定の小売売上高という、全く異なる時間スケールのデータセットが混在する状況でも、モデルが混乱することなくそれぞれの時間依存性を堅牢にモデル化できる 19。Kairosもまた、パラメータ効率が極めて高く、VisionTSやToto-Baseと比較して5.6倍小さいサイズでありながら、GIFT-Evalでより低いMASE(Mean Absolute Scaled Error)を記録している 19。 ## **確率的モデリングと生成アプローチの融合** 実世界の意思決定システムにおいて、単一の予測値(点予測:Point forecasting)を出力するだけでは不十分であり、予測の不確実性を定量化する確率的予測(Probabilistic forecasting)が不可欠である。金融市場のボラティリティ推定から、再生可能エネルギーの送電網管理におけるリスクヘッジまで、分布の裾(テールリスク)を把握することは決定的な意味を持つ 20。 ### **フロー・マッチングによる非離散的生成予測** この要請に応える次世代のアプローチとして、ICML 2025で発表予定の「Sundial」は、時系列予測を確率的な生成モデリングタスクとして再定義した 22。Chronosのように時系列を離散的なバケットに量子化して言語モデルの交差エントロピーで学習するアプローチは、量子化技術の選択に最終性能が極度に依存し、また極端な値(外れ値)の表現力が低下するという弱点があった 22。 Sundialは、拡散モデル(Diffusion models)の発展形である「フロー・マッチング(Flow-matching)」フレームワークを基盤モデルに導入することでこの限界を突破した。Sundialは離散トークン化を完全に放棄し、代わりに「TimeFlow Loss」という新しい損失関数を提案している 22。この損失関数は、Transformerが学習した表現を条件として、次のパッチの確率分布を直接モデリングするパラメータ化された関数である。推論時には、この生成モデルがランダムノイズを変換し、対象分布に適合した複数の妥当な予測サンプル(パス)を生成する。これにより、単純な予測区間(分位点)の提示にとどまらず、モード崩壊(Mode collapse)を防ぎながら、複雑な多峰性(マルチモーダル)分布の不確実性を完全にモデル化することが可能となる 22。これは、時系列基盤モデルが単なる回帰器から、時系列データの真のデータ生成プロセス(Data Generating Process)をシミュレートするエンジンの領域へと踏み込んだことを意味する。 同時に、「YingLong」に見られるような「遅延思考の連鎖(Delayed Chain of Thought: DCoT)」による出力スケーリング技術も、予測のロバスト性を高める生成アプローチの一環として注目されている。通常のLLMにおけるCoTが中間推論トークンをターゲットの前に配置するのに対し、YingLongは予測ホライズンを越えた「未来の予測可能な低周波ポイント」を条件付きアンカーとして利用し、予測の安定性を向上させるアンサンブル手法を単一のフォワードパスで実現している 24。 ### **インコンテキスト学習(ICL)による少数ショット適応の劇的な進化** TSFMの最大の訴求力は、未知のデータに対して学習なしで予測を行う「ゼロショット(Zero-shot)」能力であった。しかし、実際のエンタープライズ環境では、ゼロショットの汎用性よりも、手元の少数のデータに最適化された特化モデルの精度が求められることが多い 1。これを解決するための教師ありファインチューニング(SFT)は、計算コストとインフラ構築の複雑さを伴うため、基盤モデル導入の障壁となっていた 3。 このトレードオフを打破するブレイクスルーが、Googleの「TimesFM-ICF (In-Context Fine-Tuning)」である 3。ICML 2025で発表されるこの技術は、LLMにおけるフューショットプロンプティングの概念を時系列モデルに適用し、推論時に少数の関連例(In-context examples)を与えるだけでモデルを適応させる手法である。例えば、ある高速道路の交通量を予測する際、その道路の過去のデータだけでなく、「近隣の別の高速道路の過去数週間のデータ」をコンテキストとしてモデルに入力する 3。 この技術の根幹には、モデルが異なる時系列ストリームを混同(例えば、A地点の気温とB地点の湿度を誤ってマージ)するのを防ぐための学習可能な「共通セパレータトークン(Common separator tokens)」の導入がある 3。このトークンはデジタルな「一時停止標識」として機能し、モデルが過去の複数の事例から「全体的なトレンドの方向性」や「パターンの形状」といったメタ知識のみを抽出し、それを現在の予測対象に適用することを可能にする。 実証評価において、TimesFM-ICFはベースラインのTimesFMと比較して精度(MASE)を6.8%向上させ、23の未知のデータセットにおいて、明示的なSFTを行った特化モデルと完全に同等の性能(Parity)を達成した 3。ユーザー側での追加の勾配更新を一切必要とせずにSFTと同等の精度を引き出せるこの技術は、大規模なMLインフラを持たない企業においても、SOTAレベルの時系列予測の民主化を促進する極めて強力な推進力となる。 ## **多目的パターンマシンへの進化:予測を超えた統合的解析** これまでTSFMの研究は主に「将来の値を予測する(Forecasting)」ことに集中してきたが、2026年の最前線では、異常検知(Anomaly Detection)、時系列分類(Classification)、欠損値補完(Imputation)といった多様な分析タスクを単一のアーキテクチャで統合的に処理する「汎用時系列パターンマシン」への進化が明確なトレンドとなっている 25。 ### **分類、異常検知、欠損値補完を統合するマルチタスク推論** ICLR 2025においてOral発表(全投稿中のごく一握りに与えられる栄誉)に選出された「TimeMixer++」は、この多目的化のパラダイムを牽引するモデルである 25。TimeMixer++は、時系列データを複数のスケール(Multi-scale)および複数の解像度(Multi-resolution)で分解・混合するメカニズムを持ち、予測、分類、異常検知、補完を含む8つの異なる時系列分析タスクにおいてSOTAを達成した 25。 特筆すべきは、TimeMixer++が分類や異常検知において、既存のタスク特化型モデル(例えば異常検知におけるAnomaly TransformerやTimesNetなど)を凌駕しつつ、圧倒的な計算効率を実現している点である。推論速度は1イテレーションあたり約90ミリ秒であり、TimesNet(160ms)と比較して約44%、SCINet(150ms)と比較して約40%のスピードアップを達成している 25。この高い推論速度は、リアルタイムのシステム監視や高頻度取引(HFT)のような、レイテンシが致命的な制約となる実運用環境において不可欠な要件である。 また、分類および欠損値補完タスクにおいて際立った性能を示す「PatchMoE」のアプローチも重要である 28。将来の系列を生成する予測タスクが生成的(Generative)なアプローチを必要とするのに対し、分類タスクは系列全体の包括的な特性を識別する弁別的(Discriminative)な能力を要求する。PatchMoEは、局所的なパッチごとの遷移規則をモデリングし、ルーティング戦略を通じてチャネル間の複雑な相関を捉えることで、時系列の全体的な形状やパターンを正確に分類する能力を獲得している 28。不規則サンプリングによって発生する欠損値の補完においても、TimeMixer++を凌ぐ性能を示しており、実世界データのノイズ除去や前処理パイプラインのインフラとしての基盤モデルの可能性を証明している 28。 ## **スケーリング則(Scaling Laws)の解明と限界** 大規模言語モデルの進化を決定づけた「スケーリング則(モデルサイズ、データ量、計算量を対数的に増加させると、性能も予測可能に向上するという法則)」が、時系列基盤モデルにおいてどのように機能するかの体系的な研究が結実し始めている。 2024年から2025年にかけて行われた研究により、TSFMの対数尤度損失は、確かにデータセットサイズやパラメータ数に対してべき乗則(Power law)に従って減少することが確認された 29。しかし、時系列特有の極めて重要な洞察がもたらされている。それは、事前学習データと同じ分布に属する分布内(In-Distribution: ID)データと、未知のドメインに属する分布外(Out-of-Distribution: OOD)データにおけるスケーリングの挙動の決定的な違いである。 実験結果によれば、エンコーダ専用のTransformerアーキテクチャは、IDデータにおいてはデコーダ専用モデルよりも優れたスケーラビリティ(パラメータを増やすほど性能が一直線に伸びる性質)を示す 29。しかし、最先端のTSFMにおいてしばしば見られる「過度に複雑なアーキテクチャの強化(特定のドメインのバイアスを取り込むような細工)」は、IDの性能を押し上げる一方で、OODデータに対するスケーラビリティ(汎化能力の拡張性)を著しく損なうというトレードオフの存在が明らかになった 29。 この知見は、次世代のTSFMを設計するエンジニアに対して明確な設計指針(Practical guidelines)を与えている。それは、未知のドメインに対する汎用性を高めるためには、計算資源をアーキテクチャの過剰な複雑化に投資するのではなく、事前学習データの多様性(ドメインの網羅性と質の向上)により多くの予算を割り当てるべきであるという点である。時系列データにおける「スケールの魔法」は、単純なパラメータ数の増大だけで発現するほど単純なものではないのである 30。 ## **マルチモーダル時系列基盤モデルとエージェント型推論** 実世界のデータは、決して時系列の数値データ単体で孤立して存在しているわけではない。金融市場における株価の変動はマクロ経済のニュース記事(テキスト)と連動し、医療モニタリングデータは心電図(時系列)とX線画像(ビジョン)と医師の臨床記録(テキスト)が複雑に交絡している。この現実に適応するため、2026年のTSFMは単一モダリティの枠を越え、テキストや画像を統合するマルチモーダル基盤モデルへと進化している 31。 ### **周波数ガイド付きクロスモダリティ融合** 「HORAI」および「Aurora」といったモデルは、このマルチモーダル時系列解析の先陣を切っている 31。単純にLLMのプロンプトに時系列数値をテキストとして埋め込む手法(ChatTimeなど)は、数値のテキスト化に伴う精度の欠落(Discretization loss)や、深い意味論的特徴の抽出不足という致命的な欠陥を抱えていた 32。 HORAIのアーキテクチャは、これを根本から解決する「周波数ガイド付きクロスモダリティエンコーダ(Frequency-guided Cross-Modality Encoder)」を中心に据えている 32。このエンコーダは、時系列データの異なる周波数成分(例えば、高周波の短期的なノイズと、低周波の長期的なトレンド)を抽出し、それらをテキストや画像から抽出された意味的特徴と対応させることで、モダリティ間の明示的な融合(Explicit fusion)を図る。さらに、デコード段階において「時間-周波数MoEデコーダ」を採用し、ルーターの判断に周波数情報を直接組み込むことで、ドメイン間およびモダリティ間のパターン識別能力を飛躍的に高めている 32。10億以上のタイムポイントと関連テキスト・画像を含む「MM-TS」データセットで事前学習されたHORAIは、数値データのみを用いた既存のTSFMを凌駕するゼロショット異常検知・予測性能を達成している 9。 ### **予測から推論へ:エージェント型AIによるコンテキスト認識型予測** マルチモーダル化と並行して、TSFMを自律的なエージェントシステムに組み込む「エージェント型予測(Agentic Forecasting)」の研究が急加速している 5。これは、モデルを「静的な数値エクストラポレーター」から、「実世界の文脈を理解し、推論を行うエンジン」へと昇華させるパラダイムシフトである。 Salesforceの「MoiraiAgent」や、C3 AIの「CHARM(基盤埋め込みモデル)」は、このエージェント的アプローチの代表例である 34。MoiraiAgentは、LLMの推論能力を利用して外部の知識ベースやニュースイベントを解析し、その文脈情報に基づいて、対象となる時系列データに最も適した予測専門家(エキスパートモデル)を動的に選択する枠組みを持つ 34。これにより、単なる「明日の売上予測はXである」という数値の出力にとどまらず、「マクロ経済指標のYという変化と、競合のZというニュースリリースがコンテキストとして与えられたため、Aモデルを採用してXという予測を導出した。リスク要因はこれである」といった、解釈可能で行動につながるインサイト(Actionable intelligence)を提供することが可能になる。モデル中心の予測から、エージェントワークフローパラダイムへのこの移行は、ビジネスインテリジェンスや予知保全におけるTSFMの産業応用を爆発的に拡大させる契機となる 33。 ## **評価指標の危機とベンチマークの再構築:データリーケージとの戦い** アーキテクチャや機能面での進歩が目覚ましい一方で、2026年の時系列基盤モデルコミュニティは、モデルの信頼性を根底から揺るがす極めて深刻な「評価の危機」に直面している。それは、モデルの性能評価におけるデータリーケージ(Data Leakage)と選択バイアス(Selection Bias)の問題である 36。 ### **汚染されたベンチマークと選択バイアスの幻想** 近年のTSFM(TimesFM、Chronos、Moirai、Time-MoEなど)は、汎化性能を高めるためにインターネット上の公開データセットを根こそぎ集めた数十億から数千億ポイントに及ぶ巨大なコーパスで事前学習されている 14。その結果、従来モデルの評価に標準的に用いられてきたテストセット(ETT、Weather、Electricityデータセットなど)が、既に事前学習データの中に含まれてしまっているケースが頻発している。 最新の包括的な系統分析(Train-test set lineage analysis)によれば、主要な22のTSFMにおいて学習データとテストデータの時間的な重複(Temporal overlaps)が明確に確認された 36。さらに深刻なことに、評価に使用するテストセットをランダムに選んだ場合でも、わずか4つのテストセットをチェリーピック(都合よく選択)するだけで、全モデルの46%が純粋な選択バイアスのみによって「最先端(SOTA)」であるかのように見せかけられることが統計的に証明されたのである 36。特に深層学習ベースのTSFMは、古典的な統計ベースラインよりもこの分散の影響を受けやすく、つまり事前学習データに対する過剰適合(Overfitting)の恩恵を不正に受けている可能性が高いことが示唆された 36。GIFT-EvalがTSFMに有利な結果を示す一方で、OpenTSでは古典的な統計モデルが深層学習モデルを上回り、FoundTSでは教師ありベースラインがTSFMと同等であるという一見矛盾するベンチマーク結果 1 は、まさにこの評価基盤の汚染に起因していると考えられる。 ### **予測事前登録プロトコル(FPRP)とライブ評価プラットフォームの導入** この危機的状況を打開するため、評価フレームワークの根本的な再構築が急ピッチで進められている。その最たる例が、時系列基盤モデルのためのライブベンチマークプラットフォーム「TS-Arena」である 37。 TS-Arenaは、「予測事前登録プロトコル(Forecast Pre-Registration Protocol: FPRP)」という革新的なシステムを導入した。このシステムでは、評価対象となる実世界のデータ(例えば明日の電力消費量)が物理的に発生し、正解データ(Ground truth)として記録される「前」に、モデルが予測値を提出しなければならない 37。この単純かつ厳格な時間的コミットメントにより、学習データとテストデータのリーケージは構造的・物理的に完全に排除される。このような進化し続けるライブデータに対する透明性の高い継続的な比較こそが、TSFMの真の汎化能力を測る唯一の手段となりつつある 37。 また、「TempusBench」は、既存のいかなるTSFMの事前学習コーパスにも含まれていないことが保証された48の新しい時系列タスクからなるテストセットを提供し、クロスバリデーション戦略を強化することで、よりクリーンなゼロショット汎化性能の測定を可能にしている 36。さらにDatadogが公開した「BOOM」ベンチマークは、オブザーバビリティ(システム監視)という実世界の極めてノイジーで複雑なメトリクスに特化した評価基盤を提供し、学術的なクリーンデータと産業界の汚いデータとの間のギャップを埋めようとしている 39。 | ベンチマーク / プラットフォーム | 評価アプローチの核心 | 解決しようとしている課題 | | :---- | :---- | :---- | | **TS-Arena** | 予測事前登録プロトコル (FPRP) によるライブ評価 | 正解データ発生前の予測提出を義務付け、データリーケージと選択バイアスを物理的に排除する 37。 | | **TempusBench** | 未学習タスクの厳密な分離とライブデータ評価 | 既存モデルの事前学習コーパスに含まれない48の新規タスクを用いて、真のゼロショット汎化能力を測定する 36。 | | **GIFT-Eval / BOOM** | 大規模多様性評価 / オブザーバビリティ特化 | ドメイン間の汎化性能の標準化と、システム監視等の実世界のノイズを含む特定産業向けの実用性評価 14。 | ### **異常検知における評価の刷新と「苦い教訓」** 評価指標の再構築は、予測タスクだけでなく異常検知タスクにおいても進行している。時系列異常検知(TSAD)の分野は長年、欠陥のあるデータセットや偏った評価指標という「部屋の中の象(The elephant in the room:誰もが気づいているが見て見ぬふりをしている大きな問題)」を抱えていた 41。 新たに提案された「TSB-AD(Time-Series Benchmark for Anomaly Detection)」は、この問題に対する包括的なメスである 41。TSB-ADは、40の異なるコレクションから人間の知覚とモデルの解釈を組み合わせて綿密にキュレーションされた1070の高品質な時系列データセットを提供する。さらに、従来のF1スコアなどのバイアスを含む指標を排し、異常検知における最も信頼性の高い指標として「VUS-PR(Volume Under the Surface of Precision-Recall)」を特定し、採用している 41。 このTSB-ADを用いて、統計的手法から最新の基盤モデルまで40のアルゴリズムを公平に評価した結果、衝撃的な事実が明らかになった。高度なニューラルネットワークアーキテクチャが常に優れているという従来の常識が覆され、多くの場合、単純なアーキテクチャや古典的な統計手法の方が優れた性能を示したのである 41。この発見は、AI研究における有名な「苦い教訓(The Bitter Lesson:人間が考え出した複雑なヒューリスティクスよりも、単純な学習アルゴリズムと大規模な計算量の組み合わせが結局は勝つ、という教訓)」を時系列解析の文脈で再確認させるものであり 4、基盤モデルが必ずしもすべての局所的タスクの最適解ではないという健全な懐疑論をコミュニティに提示している。 ## **結論と実世界実装に向けた将来展望** 2026年現在の時系列基盤モデルの研究動向を総括すると、単一の絶対的な「SOTAモデル」を探求するフェーズから、時系列データの複雑な物理的・文脈的特性に適応するための「アーキテクチャの多様化と評価の厳密化」のフェーズへと完全に移行したことがわかる。以下の重要な結論と将来展望が導き出される。 第一に、**時系列固有の帰納的バイアスを取り込んだアーキテクチャの棲み分け**である。言語モデルのようにTransformer一強に収束するのではなく、コンテキスト長を極めるTimer-XL、異質なドメインを効率的に捌くTime-MoE、サンプリングレートの不規則性を連続時間関数として解決するFlowState、そして不確実性を生成的にモデリングするSundialが共存している。産業応用の現場では、自社のデータ特性(サンプリング頻度、ノイズレベル、要求されるレイテンシ)に応じて、これらのアーキテクチャを戦略的に選択することが求められる。 第二に、**「メタ学習」としてのインコンテキスト学習(ICL)の実用化**である。TimesFM-ICFに見られるような、ファインチューニングのインフラを持たずにコンテキスト提示のみで少数ショット適応を実現する技術は、エッジデバイスやリソースの限られた環境における時系列モデルの民主化を決定づける。 第三に、**推論エンジン化とエージェント型AIへの統合**である。HORAIのようなマルチモーダル融合や、MoiraiAgentのような外部コンテキストに基づく動的モデリングにより、時系列基盤モデルは単なる数値予測ツールから「状況認識と行動提案を行うインテリジェンス」へと進化している。今後は、大規模なプラントの予知保全システムや自律型サプライチェーン管理において、これらのエージェント型時系列AIが中核的な役割を担うことになる。 最後に、**厳密なライブ評価に基づく真価の証明**が不可欠である。データリーケージによって作られた幻想のSOTAは、TS-ArenaやTSB-ADのような厳格なフレームワークの前に淘汰されるだろう。推論速度、メモリ効率、そして未知のデータに対する真の汎化能力といった実運用上の非機能要件(Non-performance criteria)こそが、今後の時系列基盤モデルの価値を決定する 2。 時系列解析は今、真の意味での「BERTモーメント」の入り口に立っている。それは、一つの万能モデルがすべてを解決するという幻想の実現ではなく、あらゆる時系列タスクの基盤となる強牢な表現力、多様なデータへの適応力、そして他モダリティとの連携能力を備えた「普遍的な推論インフラストラクチャ」の確立を意味している。継続的なベンチマークの浄化とアーキテクチャの革新を通じて、時系列基盤モデルは次世代の産業AIにおける最も重要なブレイクスルーとして、社会実装のフェーズへと力強く歩みを進めている。 #### **引用文献** 1. Recent Advances in Time Series Foundation Models: Have We Reached the 'BERT Moment'? \- NeurIPS, 2月 26, 2026にアクセス、 [https://neurips.cc/virtual/2025/workshop/109585](https://neurips.cc/virtual/2025/workshop/109585) 2. Benchmarking Foundation Models for Time-Series Forecasting: Zero-Shot, Few-Shot, and Full-Shot Evaluations \- MDPI, 2月 26, 2026にアクセス、 [https://www.mdpi.com/2813-0324/11/1/32](https://www.mdpi.com/2813-0324/11/1/32) 3. Time series foundation models can be few-shot learners \- Google Research, 2月 26, 2026にアクセス、 [https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners/](https://research.google/blog/time-series-foundation-models-can-be-few-shot-learners/) 4. Recent Advances in Time Series Foundation Models (BERT2S), 2月 26, 2026にアクセス、 [https://berts-workshop.github.io/](https://berts-workshop.github.io/) 5. The 2026 Time Series Toolkit: 5 Foundation Models for Autonomous Forecasting \- MachineLearningMastery.com, 2月 26, 2026にアクセス、 [https://machinelearningmastery.com/the-2026-time-series-toolkit-5-foundation-models-for-autonomous-forecasting/](https://machinelearningmastery.com/the-2026-time-series-toolkit-5-foundation-models-for-autonomous-forecasting/) 6. ICLR Poster Timer-XL: Long-Context Transformers for Unified Time Series Forecasting, 2月 26, 2026にアクセス、 [https://iclr.cc/virtual/2025/poster/30062](https://iclr.cc/virtual/2025/poster/30062) 7. TIMER-XL: LONG-CONTEXT TRANSFORMERS FOR UNIFIED TIME ..., 2月 26, 2026にアクセス、 [https://proceedings.iclr.cc/paper\_files/paper/2025/file/d09820e292f915d77fa717d228c425ee-Paper-Conference.pdf](https://proceedings.iclr.cc/paper_files/paper/2025/file/d09820e292f915d77fa717d228c425ee-Paper-Conference.pdf) 8. 5 Time Series Foundation Models You Are Missing Out On, 2月 26, 2026にアクセス、 [https://www.kdnuggets.com/5-time-series-foundation-models-you-are-missing-out-on](https://www.kdnuggets.com/5-time-series-foundation-models-you-are-missing-out-on) 9. Empowering Time Series Analysis with Large-Scale Multimodal Pretraining \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2602.05646v1](https://arxiv.org/html/2602.05646v1) 10. Towards a General Time Series Forecasting Model with Unified Representation and Adaptive Transfer | OpenReview, 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=6J9tJKK4YI](https://openreview.net/forum?id=6J9tJKK4YI) 11. ROSE: Register Assisted General Time Series Forecasting with Decomposed Frequency Learning \- ResearchGate, 2月 26, 2026にアクセス、 [https://www.researchgate.net/publication/380935618\_ROSE\_Register\_Assisted\_General\_Time\_Series\_Forecasting\_with\_Decomposed\_Frequency\_Learning](https://www.researchgate.net/publication/380935618_ROSE_Register_Assisted_General_Time_Series_Forecasting_with_Decomposed_Frequency_Learning) 12. Time-MoE: Billion-Scale Time Series Foundation Models with ..., 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=e1wDDFmlVu](https://openreview.net/forum?id=e1wDDFmlVu) 13. \[ICLR 2025 Spotlight\] Official implementation of "Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts" \- GitHub, 2月 26, 2026にアクセス、 [https://github.com/Time-MoE/Time-MoE](https://github.com/Time-MoE/Time-MoE) 14. Introducing Synthefy Migas 1.0: State-of-the-Art Forecasting on Your Unique Data, in Minutes, 2月 26, 2026にアクセス、 [https://www.synthefy.com/blog/introducing-synthefy-migas](https://www.synthefy.com/blog/introducing-synthefy-migas) 15. Are Time-Indexed Foundation Models the Future of Time Series Imputation? \- arXiv.org, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2511.05980v2](https://arxiv.org/html/2511.05980v2) 16. Are Time-Indexed Foundation Models the Future of Time Series Imputation? \- OpenReview, 2月 26, 2026にアクセス、 [https://openreview.net/pdf?id=cTk56KpsP5](https://openreview.net/pdf?id=cTk56KpsP5) 17. Adapting to the stream: an instance-attention GNN method for, 2月 26, 2026にアクセス、 [https://research.usc.edu.au/view/pdfCoverPage?instCode=61USC\_INST\&filePid=13285606620002621\&download=true](https://research.usc.edu.au/view/pdfCoverPage?instCode=61USC_INST&filePid=13285606620002621&download=true) 18. IBM's time-series foundation model reaches \#2 on GIFT-Eval \- IBM ..., 2月 26, 2026にアクセス、 [https://research.ibm.com/blog/SSM-time-series-model](https://research.ibm.com/blog/SSM-time-series-model) 19. Kairos: Toward Adaptive and Parameter-Efficient Time ... \- arXiv.org, 2月 26, 2026にアクセス、 [https://arxiv.org/abs/2509.25826](https://arxiv.org/abs/2509.25826) 20. ProbTS: Unified benchmarking for time-series forecasting \- Microsoft Research, 2月 26, 2026にアクセス、 [https://www.microsoft.com/en-us/research/articles/probts-unified-benchmarking-for-time-series-forecasting/](https://www.microsoft.com/en-us/research/articles/probts-unified-benchmarking-for-time-series-forecasting/) 21. Foundation Models for Time Series: A Survey \- ResearchGate, 2月 26, 2026にアクセス、 [https://www.researchgate.net/publication/390570129\_Foundation\_Models\_for\_Time\_Series\_A\_Survey](https://www.researchgate.net/publication/390570129_Foundation_Models_for_Time_Series_A_Survey) 22. ICML Poster Sundial: A Family of Highly Capable Time Series Foundation Models, 2月 26, 2026にアクセス、 [https://icml.cc/virtual/2025/poster/45591](https://icml.cc/virtual/2025/poster/45591) 23. About model release for "Sundial: A Family of Highly Capable Time Series Foundation Models" (ICML 2025 Oral) \- GitHub, 2月 26, 2026にアクセス、 [https://github.com/thuml/Sundial](https://github.com/thuml/Sundial) 24. Output Scaling: YingLong Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model \- arXiv.org, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2506.11029v1](https://arxiv.org/html/2506.11029v1) 25. TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=1CLzLXSFNn](https://openreview.net/forum?id=1CLzLXSFNn) 26. Track: Oral Session 3F \- ICLR 2026, 2月 26, 2026にアクセス、 [https://iclr.cc/virtual/2025/session/31952](https://iclr.cc/virtual/2025/session/31952) 27. \[Quick Review\] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis \- Liner, 2月 26, 2026にアクセス、 [https://liner.com/review/timemixer-a-general-time-series-pattern-machine-for-universal-predictive](https://liner.com/review/timemixer-a-general-time-series-pattern-machine-for-universal-predictive) 28. Task-Aware Mixture-of-Experts for Time Series Analysis \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2509.22279v3](https://arxiv.org/html/2509.22279v3) 29. \[2410.12360\] Towards Neural Scaling Laws for Time Series Foundation Models \- arXiv.org, 2月 26, 2026にアクセス、 [https://arxiv.org/abs/2410.12360](https://arxiv.org/abs/2410.12360) 30. Towards Neural Scaling Laws for Time Series Foundation Models \- OpenReview, 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=uCqxDfLYrB](https://openreview.net/forum?id=uCqxDfLYrB) 31. Aurora: Towards Universal Generative Multimodal Time Series Forecasting \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/abs/2509.22295](https://arxiv.org/abs/2509.22295) 32. Towards a Multimodal Foundation Model for Time Series Analysis | OpenReview, 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=dcfHcCAG3C](https://openreview.net/forum?id=dcfHcCAG3C) 33. Position: Beyond Model-Centric Prediction—Agentic Time Series Forecasting \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2602.01776v1](https://arxiv.org/html/2602.01776v1) 34. MoiraiAgent: An Agentic Framework for Context-Aware Time-Series Forecasting \- Salesforce, 2月 26, 2026にアクセス、 [https://www.salesforce.com/blog/moiraiagent/](https://www.salesforce.com/blog/moiraiagent/) 35. Meet CHARM: C3 AI's Foundation Embedding Model for Time Series, 2月 26, 2026にアクセス、 [https://c3.ai/blog/meet-charm-c3-ais-foundation-embedding-model-for-time-series/](https://c3.ai/blog/meet-charm-c3-ais-foundation-embedding-model-for-time-series/) 36. Challenges and Requirements for Benchmarking Time Series Foundation Models \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2510.13654v2](https://arxiv.org/html/2510.13654v2) 37. TS-Arena \- A Live Forecast Pre-Registration Platform \- arXiv, 2月 26, 2026にアクセス、 [https://arxiv.org/html/2512.20761v2](https://arxiv.org/html/2512.20761v2) 38. “In-Context Learning”, Synthetic Data and Evaluation Issues: An (Extended) Comment on Recent Advancements in Time Series Foundation Models. | by Filotas Theodosiou \- Medium, 2月 26, 2026にアクセス、 [https://medium.com/@filotastheodosiou/in-context-learning-synthetic-data-and-evaluation-issues-an-extended-comment-on-recent-dbb00a47006e](https://medium.com/@filotastheodosiou/in-context-learning-synthetic-data-and-evaluation-issues-an-extended-comment-on-recent-dbb00a47006e) 39. Toto and BOOM unleashed: Datadog releases a state-of-the-art open-weights time series foundation model and an observability benchmark, 2月 26, 2026にアクセス、 [https://www.datadoghq.com/blog/ai/toto-boom-unleashed/](https://www.datadoghq.com/blog/ai/toto-boom-unleashed/) 40. Datadog at NeurIPS 2025, 2月 26, 2026にアクセス、 [https://www.datadoghq.com/blog/ai/datadog-at-neurips-2025/](https://www.datadoghq.com/blog/ai/datadog-at-neurips-2025/) 41. The Elephant in the Room: Towards A Reliable Time-Series Anomaly Detection Benchmark, 2月 26, 2026にアクセス、 [https://openreview.net/forum?id=R6kJtWsTGy](https://openreview.net/forum?id=R6kJtWsTGy) 42. TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark \- GitHub, 2月 26, 2026にアクセス、 [https://github.com/TheDatumOrg/TSB-AD](https://github.com/TheDatumOrg/TSB-AD)