@2025__arXiv__TimeCopilot - yuuk1's Digital Garden

> [!abstract] 概要(arXiv abstract の日本語訳) > TimeCopilot を導入する。これは複数の時系列基盤モデル(Time Series Foundation Models, TSFMs)と大規模言語モデル(LLMs)を単一の統一 API を通じて組み合わせる、予測のための初のオープンソースなエージェント型フレームワークである。TimeCopilot は予測パイプライン——特徴分析・モデル選択・交差検証・予測生成——を自動化し、同時に自然言語による説明を提供し、将来に関する直接的な問い合わせをサポートする。本フレームワークは LLM 非依存(LLM-agnostic)で、商用モデルとオープンソースモデルの双方に対応し、多様な予測ファミリーにまたがるアンサンブルをサポートする。大規模ベンチマーク GIFT-Eval での結果は、TimeCopilot が低コストで最高水準(state-of-the-art)の確率予測性能を達成することを示す。本フレームワークは、再現可能・説明可能・利用しやすいエージェント型予測システムの実践的基盤を提供する。 ## 論文情報 - タイトル: TimeCopilot - 著者: [[Azul Garza]], [[Renée Rosillo]](所属は明記なし。両者とも所在地として "San Francisco, CA, USA" のみ記載) - 媒体: arXiv プレプリント(本文末尾に "NeurIPS 2025 Workshop on Recent Advances in Time Series Foundation Models (BERT2S)" のフッタあり) - 発表年: 2025(arXiv:2509.00616、v3 は 2025-11-07) - コード/ドキュメント: <https://timecopilot.dev>(`uv add timecopilot` で導入)。モデルハブ <https://timecopilot.dev/model-hub/>、GIFT-Eval 実験 <https://timecopilot.dev/experiments/gift-eval> ## 概要 TimeCopilot は、乱立する TSFM・統計・機械学習・深層学習の各予測手法を単一の統一 API の下に集約し、LLM を推論エンジンとして予測パイプライン全体(特徴分析→モデル選択→交差検証→予測生成)を自動化する、オープンソースのエージェント型予測フレームワークである。LLM は (i) 各ステップでどう行動するかを決める制御役と、(ii) モデル選択や予測結果を自然言語で説明する説明役の二役を担う。GIFT-Eval ベンチマークで、3 つの SOTA 基盤モデルを組み合わせた MedianEnsemble が確率予測で最高性能を低コストで達成した。 ## 問題設定 - 入力: ユーザーが渡す時系列データ(`df`)と、自然言語の問い合わせ(例「次の 12 か月で何人の航空旅客が見込まれるか」)。出力: 予測値・確率的予測・自然言語の説明・問い合わせへの回答。 - 背景の課題は **TSFM の断片化(fragmentation)**。TSFM は研究室・研究グループごとに開発され、各々が独自の API・学習パイプライン・評価規約を持つ。データ入力要件(単変量/多変量、パッチ/非パッチのトークン化)や学習コストも異なり、公平な比較も本番予測システムへの統合も難しい。GIFT-Eval のような大規模評価が、設計選択の違いが再現性・横断比較を阻む実態を浮き彫りにした。 - 一方で LLM をコントローラとして計画・推論・実行を担わせる**エージェント的パラダイム**が各ドメインで広がっているが、時系列ではまだ新しく、本研究以前に TSFM をエージェント的インタフェースの下に統一した先行研究は無いとする。 ## 提案手法 - **設計原則**: 古典的な予測実務(時系列を探索し、特徴・図・診断から情報を抽出し、どのモデルが効くか仮説を立て、交差検証とベンチマークで最終モデルを選ぶ)を自動化する。LLM を (i) 各ステップでの行動決定と、(ii) モデル選択・予測の自然言語説明の 2 つに用いる。 - **2 つのエントリポイント**: - **TimeCopilot Agent**: 予測ワークフローを 3 段で構造化してオーケストレーションする。(i) **時系列特徴分析** — トレンド・季節性・定常性などモデル選択に直結する診断を計算する。(ii) **モデル選択と評価** — 単純な統計ベースラインから候補を提案し、その仮定を文書化し、交差検証で評価し、必要なときだけより複雑なモデルへエスカレートする。(iii) **最終モデル選択と予測** — 指標に基づき最良モデルを選び、パターン・不確実性・信頼性を解釈しながら予測を生成する。さらに**説明可能性**を重視し、ユーザーは予測値だけでなく各決定の理由も問い合わせできる(ブラックボックスなエージェントシステムとの差別化点)。 - **TimeCopilot Forecaster**: エージェントが提案したモデルを実行する層。**TSFM の最大の統一ハブ**を単一 API 下で提供し、依存衝突や複数の断片的インタフェースの学習を不要にする。 - **LLM 非依存(LLM-agnostic)**: OpenAI・Anthropic などの商用 API も、DeepSeek・LLaMA などのオープンソースモデルも利用でき、コスト・可用性・デプロイ制約に応じて選べる。 - **対応モデル**(本文記載): - TSFM: [[Chronos-2]]、[[TimesFM]]、[[TiRex]]、[[Toto]]、Chronos、FlowState、Moirai、Sundial、TabPFN、TimeGPT。 - 統計: ADIDA・AutoARIMA・AutoETS・Theta・SeasonalNaive・Prophet。機械学習: AutoLGBM。ニューラル: AutoNHITS・AutoTFT(NeuralForecast 経由)。 - アンサンブル: MedianEnsemble(統計・ML・基盤モデルの異種予測を結合してロバスト性を高める)。 **Figure 1: アーキテクチャ** ![[_attachments/arxiv-2509.00616/fig1-architecture.png]] (Figure 1. (Right) Overall TimeCopilot’s architecture. (Left) TimeCopilot Agent API usage に関するアーキテクチャを示す。) **Figure 2: モデル構成** ![[_attachments/arxiv-2509.00616/fig2-model.png]] (Figure 2. Performance of TimeCopilot and baseline models on the GIFT-Eval benchmark [21]. Lower values indicate better forecast pe に関するモデル構成を示す。) ## 新規性 - TSFM をエージェント的インタフェースの下に**統一した初のオープンソース研究**。先行のエージェント研究は時系列の ML エンジニアリングタスク(データ処理・コード変換)のベンチマーク([26] TimeSeriesGym)や、数値と自然言語文脈の統合([27])に向かっており、予測そのものを TSFM のエージェント的統合として扱ったものは無かった。 - 「より良い単一モデル」を競う TSFM 研究とは直交し、断片化した依存を解消して**全パイプライン(データ準備・モデル選択・アンサンブル・評価)を自動化**しつつ、自然言語の説明と将来への問い合わせを可能にする点が新しい。 ## 実験設定 - **ベンチマーク**: [[GIFT-Eval]]。24 データセット・144,000 以上の時系列・1.77 億データ点を、複数ドメイン・複数周波数にわたって含む。 - **評価指標**: 確率予測精度を **CRPS**、点予測精度を **MASE** で測る。各データセットでの平均ランクと平均スコアの両方を報告する(Figure 2)。 - **比較対象**: GIFT-Eval に提出され、かつ公開再現可能な手法のみを含む(ライブのリーダーボードは Hugging Face の Salesforce/GIFT-Eval)。 - **TimeCopilot の構成**: MedianEnsemble で 3 つの SOTA 基盤モデル([[Chronos-2]]・[[TimesFM]]・[[TiRex]])を結合し、isotonic regression(等張回帰)で分位点の単調性を保証する。これにより外れ値とモデル固有のバイアスへのロバスト性を得る。 ## 実験結果 - **確率予測(CRPS)**: TimeCopilot のアンサンブルが全体で最良(平均ランク・平均スコアともに首位、Figure 2 上段左・下段左)。続いて [[TiRex]](NXAI)・[[Chronos-2]](AWS)・TimesFM-2.5(Google Research)。 - **点予測(MASE)**: TimeCopilot は [[Chronos-2]](AWS)に次ぐ 2 位(Figure 2 上段右・下段右、平均スコアでも Chronos-2 に次ぐ)。 - **コスト**: 全体最良の性能を、再現性を保ちつつ約 **$24 の GPU 分散推論**という低コストで達成した。 - 結果は 3 点を示すとまとめる: (i) 統一インタフェースで複数基盤モデルをオーケストレーションできる、(ii) 確率予測・点予測の双方で SOTA を出す、(iii) 再現可能かつ低コストな大規模実験を可能にする。 ## 考察 - TimeCopilot は「単一の最良モデルを探す」のではなく、**異種の予測手法をアンサンブルで束ねる**ことで、外れ値やモデル固有バイアスに対するロバスト性を獲得する。isotonic regression による分位点単調化は、確率予測の較正を保つための具体的工夫。 - LLM を「説明役」に据える設計は、予測値だけでなく**決定の理由**を問い合わせ可能にし、信頼が重要な予測応用でブラックボックスなエージェントとの差別化を狙う。 - 将来課題として、(i) Model Context Protocol([[Model Context Protocol|MCP]])統合による外部ツール連携、(ii) エネルギー・気候・金融・サプライチェーンなど学術ベンチマーク外への展開、(iii) 階層予測・多変量予測(多変量の説明付き)・集約レベル間の整合性など高度な評価設定への拡張を挙げる。 ## 強み / 弱点・課題 - **強み**: TSFM の断片化という実務的障壁を、単一統一 API + LLM オーケストレーションで正面から解く。オープンソースで再現可能、$24 という低コストで GIFT-Eval 全体最良。説明可能性を設計に組み込む。 - **弱点・課題**: - 本論文は 9 ページの短い NeurIPS 2025 ワークショップ論文で、エージェントの意思決定そのもの(モデル選択の質・再計画の妥当性)を切り分けて評価したアブレーションは無い。最良結果は実質「3 基盤モデルの MedianEnsemble」であり、LLM オーケストレーションがその性能にどれだけ寄与したかは本文の実験からは分離できない。 - LLM 推論を含むエージェントワークフローの計算オーバーヘッド(基盤モデル推論の $24 とは別)の定量は無い。 - 多変量予測・階層予測は将来課題に留まり、評価は GIFT-Eval の予測精度に閉じる。