エージェント型時系列予測 - yuuk1's Digital Garden

# エージェント型時系列予測 ## 定義エージェント型時系列予測(agentic time series forecasting, ATSF)は、時系列予測を「過去の観測を将来値へ写像する単一のモデル関数」ではなく、知覚(perception)・計画(planning)・行動(action)・省察(reflection)・記憶(memory)の 5 コンポーネントからなる反復的・マルチターンな意思決定プロセスとして捉え直す枠組みである。予測モデルの能力のみに性能を帰さず、予測活動がどう組織化・協調・適応されるか(=プロセスの組織化)に焦点を移す。予測モデルの呼び出し自体を多数の行動の 1 つとして扱い、ツールとの相互作用・結果のフィードバック取り込み・経験蓄積による進化を重視する。([[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]]) 実装は 3 パラダイムに整理される: **Workflow**(事前定義 DAG/SOP による構造化実行。例 [[TimeCopilot]]、[[TimeSeriesScientist]])、**AgenticRL**(試行錯誤と報酬でポリシー最適化。例 [[Cast-R1]])、**AgenticFlow**(明示的計画に局所的 RL/記憶を組み合わせるハイブリッド)。 ## 横断的知見 - **「知覚 → 計画 → 行動 → 省察 → 記憶」の反復ループは予測と SRE で同型に現れる**。ATSF が予測を perception–planning–action–reflection–memory の反復的意思決定として定式化するのに対し、[[agentic SRE]] の実装群は障害診断・緩和を「観測(probe)→行動(execute)→検証(verify)→反省(reflect)」の反復ループに分割する([[ThinkRemed]] の 4 エージェント、[[Stratus]] の探索→緩和→検証、[[Bits AI SRE]] の仮説駆動調査)。どちらも「シングルパス実行では不十分な、非定常で多段の問題」を、明示的な省察と記憶を伴う反復プロセスへ作り替える点で骨格が一致する。ATSF はこの設計を予測ドメインで一般化したものと読める。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__arXiv__MicroRemed - Benchmarking LLMs in Microservices Remediation]], [[@2026__Datadog__Building Bits AI SRE - Autonomous Incident Investigation Agent]]) - **「情報を絞ってから推論する」骨格がモダリティ・ドメインを越えて通底する**。ATSF の知覚(perception)は固定の前処理でなく「何を関連情報とみなすか」を文脈依存に決める適応的認知ステップと位置づけられる。これは [[agentic SRE]] で観測された「テレメトリ選別が性能の鍵」([[Stratus]] のオブザーバビリティ前処理、[[AIOpsLab]] の get_metrics 抑制)、[[特徴量削減]]([[MetricSifter]])、[[ログ解析]]([[LogPilot]] の intent-aware scoping)と同じ思想であり、いずれも「無差別な情報取得はノイズ・トークン枯渇を招く」という共通の制約に応えている。ATSF はこれを予測パイプラインの第 1 段(知覚)として明示的にモデル化した。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__MLSys2025__AIOpsLab - A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds]]) - **ATSF はモデル規模・基盤モデルと直交する**。Table 1 は Foundation Models・LLM-based Generative・Reasoning-Driven のいずれもツール利用(✗)と進化(✗)を欠くと整理し、ATSF だけがツール利用(✓)と進化(✓)を持つとする。論文は「大規模/基盤モデルは予測能力を高めるが依然シングルパス実行に留まる。ATSF はモデル規模と直交し、下層モデルの変更なしに計画・省察・記憶で予測の振る舞いを形作る」と明言する。つまり [[時系列基盤モデル]] の進歩(精度・汎化)は ATSF にとって置換対象でなく、行動空間に組み込む 1 ツール(predictive modeling tool)である。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]) - **「反復と反省が性能を生む」という主張が予測と緩和で一致する**。ATSF は省察(自己評価・自己判断)と動的再計画を設計の中核に据え、シングルパス予測との本質的差をここに置く。[[agentic SRE]] では 3 系([[Stratus]]・[[SREGym]]・[[MicroRemed]])が独立に「反復と反省」を緩和性能の源泉と位置づけており(リフレクションがワンショット生成を上回る)、ATSF の主張と同方向。ただし両ドメインとも「反復推論が誤りを増幅しうる」(ATSF Challenge 4)・「リフレクションの効きは逓減する」([[MicroRemed]])という同型のリスクも抱える。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2026__arXiv__SREGym - A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios]]) - **同一のポジションが提示した Workflow と AgenticRL の両パラダイムが、別グループの独立実装で出そろった**。ATSF は実装を Workflow(固定 DAG/SOP)・AgenticRL(報酬最適化)・AgenticFlow(ハイブリッド)に分類した。[[TimeSeriesScientist]](TSci)は Workflow の典型で、Curator → Planner → Forecaster → Reporter の固定 SOP を LLM ガイドの決定論的ポリシーで直列実行する(RL なし、明示的計画あり)。一方 [[Cast-R1]] は AgenticRL で、行動選択を報酬最適化により獲得する。両者とも「予測モデルの呼び出しを多数の行動の 1 つとして扱う」という ATSF の中核を体現するが、行動選択の獲得方式(プロンプト設計 vs 報酬学習)で分岐する。ATSF が概念で並置した 2 パラダイムが、それぞれ独立の実装と実験を得たことで枠組みの記述力が裏づけられる。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **「知覚(perception)=適応的前処理が性能の鍵」が TSci のアブレーションで定量裏づけされた、ただしボトルネックの所在は実装で異なる**。ATSF は perception を「何を関連情報とみなすかを文脈依存に決める適応的認知ステップ」と位置づけた。[[TimeSeriesScientist]] のアブレーションは前処理モジュール(Curator のデータ品質診断・clean/resample/外れ値処理)除去が MAE 平均 +41.8% と 3 モジュール中最大の劣化を示し、perception の中核が予測性能に最も効くという ATSF の主張を実装で支える。一方 [[Cast-R1]] では予測モデルツール除去が最大劣化だった——TSci が統計+ML の 21 モデルを内蔵し予測器を冗長に持つのに対し、Cast-R1 は基盤モデル([[Chronos-2]])に強く依存するため、両者でボトルネックの所在(前処理 vs 予測器)が分かれると読める。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **「モデル規模と直交」を TSci が基盤モデル不使用という極端な構成で例示する**。[[Cast-R1]] が基盤モデル([[Chronos-2]])を行動空間のツールとして使うのに対し、[[TimeSeriesScientist]] は [[時系列基盤モデル]] を一切使わず、統計・古典 ML・軽量 DL の 21 モデルライブラリだけで、LLM が直接予測するベースライン(GPT-4o, Gemini-2.5 Flash, Qwen-Plus, DeepSeek-v3, Claude-3.7)を平均 38.2% 上回る。これは「予測能力の源泉は下層モデルの規模でなく、プロセスの組織化(診断・モデル選択・アンサンブル・レポート)にある」という ATSF の主張を、基盤モデルゼロという対極の構成から支持する。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]]) - **ポジションペーパー ATSF が実験なしに掲げた主張群を、同グループの AgenticRL 実装 [[Cast-R1]] がアブレーションで個別に裏づけた**。ATSF は予測を perception–planning–action–reflection–memory の 5 コンポーネントで言語化したが体系的評価を持たなかった。[[Cast-R1]] はこのうち action(予測モデルを行動空間の 1 ツールとして呼ぶ)・reflection・memory・planning の寄与を独立に定量化する: 予測モデルツール除去が最大級の劣化(ETTh1 MSE 6.062→15.993、[[Chronos-2]] 単独除去でも volatile な NP が 22.5→55.4)、自己省察(Refine)除去で劣化(ETTh1 で MSE 約 3.1 増)、dynamic memory 除去で全データセット劣化、Planning 除去が最悪(ETTh1 18.184; 行動が試行錯誤に退化)。さらに RL 除去が最大劣化(NP 24.750→54.631)で、ATSF が AgenticRL に期待した「適応的行動選択は報酬最適化で獲得される」が実証された。position が概念で示した骨格を、同一グループの実装が実験で支える関係にある。(Source: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - **Workflow パラダイムの 2 実装が「予測力の源泉」で対極をなす**。ATSF の Workflow 系には [[TimeCopilot]]([[@2025__arXiv__TimeCopilot]])と [[TimeSeriesScientist]] の 2 実装が揃った。両者とも固定的な認知ステップの連鎖(TimeCopilot: 特徴分析 → モデル選択・評価 → 最終選択・予測、TSci: Curator → Planner → Forecaster → Reporter)で動的再計画を持たない Workflow 型だが、行動空間に何を置くかが対極にある: TimeCopilot は [[時系列基盤モデル]] の最大級ハブを束ね MedianEnsemble([[Chronos-2]]+[[TimesFM]]+[[TiRex]] を isotonic regression で結合)で GIFT-Eval 確率予測 CRPS の全体最良を達成するのに対し、TSci は基盤モデルを一切使わず統計・古典 ML・軽量 DL の 21 モデルだけで LLM 直接予測を上回る。同じ Workflow の骨格でも「高精度 TSFM のアンサンブル」と「軽量モデル群」という両極の行動空間で機能する事実は、ATSF の「プロセスの組織化は基盤モデルの有無と直交する」という主張を Workflow 系の内部で例証する。(Source: [[@2025__arXiv__TimeCopilot]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]], [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]]) - **「LLM Scientist」がメタラーニングの実装形態として独立に提案された**: [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] は汎ドメイン TSF アーキテクチャの限界を論じる中で、解決策として「エージェント的メタラーニング（LLM Scientist）」を提案する。LLM が予測者ではなくオーケストレータとして機能し、データセットの統計特性を診断、前処理を提案、専門モデルライブラリからの最適アーキテクチャ選択を行うという構想で、これは ATSF の Workflow パラダイム（[[TimeSeriesScientist]] の Curator → Planner → Forecaster → Reporter）と構造が同型である。Ma+ は ATSF とは独立にこの方向を提案しており、「予測モデルの呼び出しを多数の行動の 1 つとして扱い、LLM がプロセスを組織化する」という設計思想が、予測パラダイム論（ATSF）とアーキテクチャ限界論（Ma+）の双方から独立に収束したことを示す。(Source: [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]], [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]]) - **Workflow 代表 TimeCopilot は「LLM オーケストレーションの正味寄与」を未分離のまま SOTA を主張する**。TimeCopilot の GIFT-Eval 全体最良は実体が MedianEnsemble(基盤モデル 3 種 + isotonic regression)であり、LLM が特徴分析・モデル選択で果たす判断を ablate した結果は本体論文に無い。これは AgenticRL の [[Cast-R1]] が action/reflection/memory/planning/RL の寄与を個別アブレーションで定量化し、Workflow の [[TimeSeriesScientist]] が前処理モジュール除去で MAE +41.8% を示してパイプライン段の寄与を切り分けたのと対照的。ATSF の中核主張「プロセスの組織化(=LLM の意思決定)が性能を生む」の実証は、Workflow 代表のうち TimeCopilot では未検証、TSci ではパイプライン段単位で部分検証という濃淡がある。(Source: [[@2025__arXiv__TimeCopilot]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]], [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]]) - **USTC 系列の三世代(TimeReasoner → AlphaCast → Cast-R1)が ATSF の 3 パラダイムを内製で揃えた**。[[University of Science and Technology of China]] の Cheng・Tao・Liu グループは、(1) [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] で「訓練不要の純粋なスロー思考 LLM(=推論時スケーリング単独)」、(2) [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] で「訓練不要 Investigator-Generator-Reflector の Workflow 型(ツールキット内蔵)」、(3) [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] で「RL 訓練 AgenticRL」を、同じ問題ドメイン(EPF・ETT 等)に対して順に提案した。これは ATSF が概念で並置した 3 パラダイムが、同一研究グループ内で意図的に積み上げられた実装系列として観察できる初の事例 (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]], [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]], [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]])。 - **AlphaCast の「反省モジュール除去で非推論ベースラインより悪化」は ATSF の反省コンポーネント必要性を最も直接的に示す証拠**。AlphaCast Sunny Power でのアブレーションは、反省なしの推論が非推論ベースラインより MSE で悪化する事例を作り出した。これは ATSF Challenge 4「反復推論が誤りを増幅しうる」の具体的観測点であり、Reflexion 型の自己評価がエージェント型予測の信頼性に不可欠であることを示す (Source: [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]], [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]])。 - **TimeOmni-1 は ATSF の単一エージェント実装に「ジョイント訓練 RL」の道を加える**。[[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] は 4 アトミックタスク(シナリオ理解・因果発見・イベント認識予測・意思決定)をジョイント訓練すると意思決定精度が 40.9% → 45.7% → 47.9% と漸増する能力補完を示した。これは ATSF が言及する「複数行動の協調学習」を train-once use-across-tasks の形で実証する初の試みで、AgenticRL パラダイムを LLM 内部の能力統合へ拡張する方向を示す (Source: [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])。 ## 未解決の問い - ATSF はポジションペーパーであり統一ベンチマーク・評価基準を欠く。反復的予測プロセスの良し悪しを、最終予測精度だけでなく「プロセスの質」(再計画の妥当性・記憶の有用性)で測る評価指標は何か。[[agentic SRE]] が軌跡指標(Detoured/Covered Services, [[ITBench]])で探索の質を測り始めたのと同様の指標が予測でも要るか。 - ATSF の 3 パラダイム(Workflow / AgenticRL / AgenticFlow)の定量比較が依然ない。Workflow の [[TimeSeriesScientist]] と AgenticRL の [[Cast-R1]] が出そろい、双方とも ETT 系ベンチで評価したが、評価設定が異なる(TSci は単変量・MAE/MAPE・GPT-4o バックボーン・25 スライス、Cast-R1 は MSE 中心・Qwen3 バックボーン・[[Chronos-2]] 利用)ため直接比較できない。同一プロトコルで Workflow / AgenticRL / AgenticFlow を並べ、どの問題クラス(非定常性の強さ・ホライズン長・ツール多様性)でどのパラダイムが優位かを検証する研究は未着手。 - TSci は固定 SOP(Curator → Planner → Forecaster → Reporter)で動的再計画を持たない。ATSF が中核に据える省察(reflection)・動的再計画を欠く Workflow 型でも LLM ベースラインを大きく上回る事実は、「反復と省察が性能を生む」という主張とどう整合するか。Workflow 型の固定パイプラインで足りる問題クラスと、AgenticRL/AgenticFlow の適応性が必要な問題クラスの境界はどこか。 - Workflow 系([[TimeCopilot]])の「LLM オーケストレーションの正味の寄与」をどう測るか。TimeCopilot の GIFT-Eval SOTA は MedianEnsemble(基盤モデルのアンサンブル + isotonic regression)が主因で、LLM のモデル選択・特徴分析判断を ablate した結果が本体論文に無い。[[Cast-R1]] が AgenticRL で行ったコンポーネントアブレーション・[[TimeSeriesScientist]] が前処理段で行った切り分けを、固定 SOP の Workflow 系にも適用して「LLM 判断そのもの」の寄与を分離する必要がある。 - 記憶設計(Challenge 1): 決定価値のある経験(反復パターン・有効戦略・失敗事例)をどう表現・抽象化・転移し、古い/誤った記憶による劣化をどう防ぐか。[[時系列基盤モデル]] が暗黙にパラメータへ吸収する過去情報を、ATSF は明示的記憶へ外在化するが、その最善形式(テキスト/知識グラフ/埋め込み)は未確定。 - エージェント的アプローチの計算オーバーヘッド(Challenge 5)の具体的見積もりがない。「全ての予測判断が同程度の推論を要するわけではない」とし資源を意識した選択的機構の必要を説くが、いつ重い反復を起動しいつ軽量に済ますかの判断基準は未提示。実装 [[Cast-R1]] もマルチターン・ツール並列呼び出しの推論コストを定量化しておらず、この空白は埋まっていない。 - [[Cast-R1]] のスケーリング実験は backbone(Qwen3 1.7B→4B→8B)拡大で予測誤差が単調減少すると報告する。これはエージェント的予測の性能が「フレームワーク設計の寄与」と「下層 LLM の知能の寄与」に分離しきれないことを意味する。ATSF が掲げる「モデル規模と直交」は概念上の独立であって、実装の実性能は backbone 能力に強く依存する——枠組み自体の正味の寄与をどう測るか。(Source: [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]]) - 予測から意思決定への説明責任(Challenge 7): 予測が下流アクションを自動化する際、誤りをモデル・エージェント・人間のどこに帰属させるか。これは [[agentic SRE]] の「正しい診断なしの偶発的緩和を報酬でどう区別するか」と同型の帰属問題。 - 既存の AutoML・ハイパーパラメータ最適化・複雑な予測パイプラインと ATSF の差は「動的な意思決定制御の有無」とされるが、実装上どこまで本質的に異なるかの線引きは曖昧なまま。 - Ma+ ([[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]]) が提案する「LLM Scientist」と ATSF の Workflow/AgenticRL の関係は何か。Ma+ のメタラーニング提案は概念的であり具体的な実装・評価がない。TSci・Cast-R1 等が既に実装した枠組みとの差異（メタ選択 vs 予測プロセス最適化）を切り分け、メタラーニングがエージェント型予測のどの段（知覚・計画・行動）に寄与するかを検証する必要がある。 ## 関連 - ソース: [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]] / [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]] / [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]] / [[@2025__arXiv__TimeCopilot]] / [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]] / [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] / [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] / [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] - 概念: [[時系列基盤モデル]] / [[多変量時系列予測]] / [[強化ファインチューニング]] / [[agentic SRE]] / [[特徴量削減]] / [[ログ解析]] / [[時系列推論]] / [[検証可能報酬による強化学習]] - エンティティ: [[Mingyue Cheng]] / [[Xiaoyu Tao]] / [[Qi Liu]] / [[Enhong Chen]] / [[University of Science and Technology of China]] / [[Cast-R1]] / [[TimeCopilot]] / [[TimeSeriesScientist]] / [[Chenyu You]] - 関連 MOC: [[時系列基盤モデル - MOC]] ## 出典 - [[@2026__arXiv__Position Beyond Model-Centric Prediction - Agentic Time Series Forecasting]](Abstract, §2 Table 1, §3 core components, §4 Table 2, §5 alternative views, §6 opportunities/challenges) - [[@2026__arXiv__Cast-R1 - Learning Tool-Augmented Sequential Decision Policies for Time Series Forecasting]](§3 手法, §4.3 各種アブレーション Table 3/7/8/9/11/12/13, §4.4 スケーリング) - [[@2025__arXiv__TimeSeriesScientist - A General-Purpose AI Agent for Time Series Analysis]](Abstract, §3 4 エージェント設計, §4.1 Table 1 予測精度, §4.2 Table 2 レポート評価, §4.3 Figure 7 アブレーション, Appendix B/C アンサンブル戦略・モデルライブラリ) - [[@2025__arXiv__TimeCopilot]](§2 設計原則・3 段ワークフロー, §2.2 TSFM 統一ハブ, §3.1 GIFT-Eval/MedianEnsemble, Figure 2 CRPS/MASE ランク) - [[@2026__arXiv__Position - The Inevitable End of One-Architecture-Fits-All-Domains in Time Series Forecasting]](§5.2: LLM Scientist・メタ選択・メタ特徴量選択の提案)