時系列推論 - yuuk1's Digital Garden

# 時系列推論 Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義時系列推論(Time Series Reasoning, TSR)は、生の時系列入力に対して多段階の中間思考を経て、予測・分類・因果発見・意思決定の解を導く LLM ベースのパラダイムだ。従来のファスト思考予測(直接マッピング)に対して、推論時にチェーン・オブ・ソート(CoT)・自己反省・ツール呼び出し・強化学習で精錬された推論方略を介在させ、長期依存・非定常挙動・外部イベント・因果関係などに対する明示的な推論を実現することを目的とする (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]], [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])。Chow+ は推論を「知覚 → 文脈化 → 演繹」の 3 段階に分解する枠組みを提示し、テキスト変換が知覚段階のボトルネックになると主張した (Source: [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]])。 ## 横断的知見 - **「真に推論を要するタスク」の判定基準が形式化された**。TimeOmni-1 は推論報酬原則(推論モデルが非推論モデルを有意に上回るタスクのみ採用)と文脈充足原則(入力が不十分なら理想推論者でもランダム推測しかできない)を導入し、シナリオ理解・因果発見・イベント認識予測・意思決定の 4 アトミックタスクに集約した。AlphaCast も類似の精神で文脈準備(Investigator)を独立段階として切り出している (Source: [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]])。 - **推論の質はモデル規模だけでなく推論スタイルに依存する**。TimeReasoner では、GPT-5-Thinking がより大きな規模を持ちながら線形外挿ショートカットへの依存により DeepSeek-R1 を下回るケースが示された。データ重視の帰納的推論を行う LLM が、単純なヒューリスティック外挿に頼る LLM を上回る傾向にある (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])。 - **「推論は両刃」: 反省なき推論はベースラインより悪化しうる**。AlphaCast の反省モジュール除去アブレーションでは、Sunny Power データセットで非推論ベースラインより悪化した。複雑高次元系列での推論は幻覚リスクを伴うため、反省ループ(Reflexion 型)が物理整合性の保護に不可欠 (Source: [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]])。TimeReasoner でも CoT が長すぎると精度が下がる(Figure 8)という反直感的な事実が同方向の証拠を提供する (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])。 - **テンポラルプライアの注入が RL の前提となる**。TimeOmni-1 は SFT(Stage 1)で小規模高品質 CoT データから時間的事前知識を注入し、その上に GRPO(Stage 2)を載せる二段階訓練を採用した。Stage 1 を飛ばすと因果発見精度が −5.3% で改善しない。これは [[検証可能報酬による強化学習]] が時系列ドメインで機能するための前提条件として SFT による分解戦略の注入が必須であることを示す (Source: [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])。 - **知覚ボトルネックはテキスト変換に内在する**。Chow+ はパッチエンコーダ + LoRA で 7B モデルが GPT-4o を UCR ゼロショット分類で上回ることを示し、専用エンコーダによる知覚バイパスの有効性を実証した。一方で TimeReasoner はテキストプロンプトのままで深層学習ベースラインと競合する性能を達成しており、知覚ボトルネックの大きさはタスク種別(分類 vs 予測)とスロー思考能力の有無で変動する余地が残る (Source: [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]], [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])。 - **タイムスタンプは情報単位として最重要**。TimeReasoner はタイムスタンプ削除で ETTh1 MSE が 5.4 → 25.3 に悪化した。生のテキスト文字列としてのタイムスタンプは LLM にとって時間軸を構造化する最強の手がかりであり、専用エンコーダなしでも有効に機能する (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]])。 - **「train-once use-across-tasks」が成立しうる**。TimeOmni-1 のジョイント訓練は意思決定精度を 40.9% → 45.7% → 47.9% と漸増させる進歩的能力補完を示した。AlphaCast も訓練不要で同じ Investigator-Generator-Reflector のワークフローを EPF・ETT・Windy Power 等 10 データセットで横断的に適用する (Source: [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]], [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]])。 - **学習軸の対立: 訓練不要 vs RL 後訓練**。TimeReasoner と AlphaCast は訓練不要で推論時スケーリングのみに依拠し、TimeOmni-1 は SFT + RL の二段階訓練で時系列推論能力をモデル内部に焼き付ける。前者は導入容易性、後者は汎化性能と分布外頑健性で優位を示しており、用途次第での選択が必要 (Source: [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]], [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]], [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]])。 - **異常診断への拡張: 検知 + 分類 + 因果説明を 1 タスクに統合した TIME-RA が登場した**。従来の TSR 研究は予測・分類・意思決定タスクが主であったが、[[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] は TSAD を「二値識別」から「生成型診断」へ転換し、(i) 異常有無検知・(ii) 14+6 種の細粒度分類・(iii) Observation–Thought–Action 形式の因果推論テキスト生成を単一モデルに統合する。SFT により検知と推論一貫性が向上するが、複雑な多変量シナリオでは停滞・後退も観察され、TIME-RA は推論タスクとして難しい領域にある。これは TimeOmni-1 が示した「真に推論を要するタスク」の判定基準(推論モデルが非推論モデルを有意に上回るタスク)に TIME-RA が合致することを示唆する。(Source: [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §2–4) ## 未解決の問い - どのようなデータ特性(次元数・非定常性・外部イベント密度)が LLM 推論の幻覚を誘発しやすいか、体系的に同定できるか。AlphaCast の Sunny Power 例は単発の観察にとどまる。 - 知覚ボトルネックは「テキスト変換」固有の現象か、それとも LLM の表現学習一般の限界か。TimeReasoner の純テキスト入力での競合性能は前者を弱めるが、分類 vs 予測のタスク差で結論が分かれる。 - RL の Stage 2 で機能する報酬関数の設計空間はどこまで広げられるか。TimeOmni-1 の R_count(MAE 正規化指数減衰)は予測タスク向けの一例だが、意思決定タスクではコスト関数を直接報酬に埋め込む方が良いかもしれない。 - スロー思考 LLM の TSF での強みは異常検知・変化点検知でも同様に発揮されるか。TimeReasoner が AQWan・AQShunyi・Wind 等の複雑時間動態で優位を示したことは [[異常検知]] への転用可能性を示唆するが、未検証。 - TIME-RA の SFT が複雑な多変量シナリオで停滞・後退することが観察されたが、そのメカニズムは何か。単純 SFT が不十分ならば TimeOmni-1 型の SFT + RL 二段階訓練は診断タスクでも機能するか。([[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]] §4.3) - 推論時ハイパーパラメータ(温度・top-p・CoT 長・最大トークン)の最適点はモデル・タスク・データドメインでどう変動するか。TimeReasoner の τ=0.6 知見は単一の証拠点。 - ジョイント訓練の能力補完効果はタスク数の増加とともにスケールするか、それとも干渉(negative transfer)が現れる閾値があるか。 - 「ケースライブラリ」のような検索拡張(retrieval augmentation)は推論を補強する一方、検索した類似事例が不適切な場合に推論を逆方向へ誘導するリスクがある(AlphaCast)。検索品質の保証メカニズムは未確立。 ## 関連 - 上位概念: [[エージェント型時系列予測]]・[[文脈内学習]]・[[テスト時計算スケーリング]] - 接続: [[検証可能報酬による強化学習]](TimeOmni-1 Stage 2 と Time-R1 のクロスドメイン応用)・[[時系列基盤モデル]](予測パラダイムの対比)・[[時系列質問応答]](TSR の最初の世代としての位置)・[[エージェント型強化学習]] - MOC: [[structures/000 Index]] ## 出典 - [[@2024__arXiv__Towards Time-Series Reasoning with LLMs]] — 知覚 → 文脈化 → 演繹の 3 段階分解、軽量エンコーダ + LoRA で 7B が GPT-4o を超える - [[@2025__KDD__Can Slow-thinking LLMs Reason Over Time - Empirical Studies in Time Series Forecasting]] — TimeReasoner、推論時スケーリングのみで深層学習と競合、CoT 長と精度の反直感的関係 - [[@2026__ICLR2026__TimeOmni-1 - Incentivizing Complex Reasoning with Time Series in Large Language Models]] — TSR-Suite(4 アトミックタスク)、SFT + GRPO の二段階訓練、ジョイント訓練の能力補完 - [[@2025__arXiv__AlphaCast - A Human Wisdom-LLM Intelligence Co-Reasoning Framework for Interactive Time Series Forecasting]] — Investigator-Generator-Reflector の三段階エージェント型推論、軽量ツールキット