LLM時系列アプローチ - yuuk1's Digital Garden

# LLM時系列アプローチ ## 定義大規模言語モデル(LLM)を時系列データの予測・分析・異常検出などのタスクに適用する手法群の総称。サーベイ論文「Large Language Models for Time Series: A Survey」[Zhang+ 2024, arXiv:2402.01801] は手法を 5 カテゴリに分類する。 LLM 単体での能力が高まるにつれ、ドメイン固有の時系列モデルを一から学習することなく、LLM の事前学習知識を転移できる可能性が示されている。GPT-3・LLaMA-2 等がゼロショット時系列予測で教師ありモデルと同等以上の性能を示した事例(LLMTime)がその端的な実例である。 ## 5 アプローチ分類 ### 1. Prompting（プロンプティング）数値時系列をテキスト形式(スペース区切り桁列、自然言語文など)に変換し、LLM に直接入力する手法。ファインチューニング不要でゼロショット予測が可能。代表手法: - **LLMTime** [Gruver+ 2023]: 数値を桁単位でスペース区切りにして BPE の分解問題を回避。GPT-3・LLaMA-2 でゼロショット予測。 - **PromptCast** [Xue+ 2023]: テンプレート駆動の文→文予測パラダイム。制約: 数値の意味を言語空間で保持しきれず、単純なパターンに限定されやすい。 ### 2. Quantization（量子化） VQ-VAE・k-means などで時系列を離散インデックス列に変換し、LLM のトークン空間に接続する手法。代表手法: - **DeWave** [Duan+ 2023]: EEG 信号を離散インデックスに変換し自然言語に翻訳。 - SpeechGPT・AudioLM: 音声ドメインで確立されたアプローチ。 ### 3. Aligning（整列）時系列埋め込みを言語空間に整合させる手法。さらに 2 方向がある。 **相似性マッチング型** — 別個の時系列エンコーダと言語エンコーダを対照学習・正準相関分析で整合: - MTAM [Han+ 2023]: 正準相関分析 + Wasserstein 距離で EEG↔テキスト整合。 - ETP [Liu+ 2024]: 心電図↔テキストの対照学習。 **LLM バックボーン型** — 事前学習済み LLM の大半の重みを凍結し、インターフェース部のみを学習: - **One Fits All** [Zhou+ 2023]: GPT-2 の self-attention・feedforward 層を凍結(Frozen Pretrained Transformer)し、位置埋め込みのみをファインチューニング。7 タスク(分類・異常検出・補完・予測等)で最先端性能。**言語だけでなく画像事前学習モデル(BEiT)からの転移も有効**であることを示す。 > [!key-insight] > 「One Fits All」の実証は、時系列固有の基盤モデルを一から学習せずとも、異分野(言語・画像)の大規模事前学習が転移できることを示した点で重要。[[時系列基盤モデル]](TSFM)研究の前段として位置づけられる。 ### 4. Vision（ビジョン）時系列を折れ線グラフ・チャート画像に変換し、マルチモーダル LLM(CLIP 等)に入力する手法。テキストと視覚情報を橋渡しとして使う。 ### 5. Tool（ツール） LLM がコード生成・API 呼び出しを通じて間接的に時系列タスクを実行する手法。**ToolLLM** [Qin+ 2024] は天気・株価 API 統合フレームワーク。 ## 手法選択の指針 | 状況 | 推奨アプローチ | |------|--------------| | 訓練データが少ない・なし | Prompting | | 十分な訓練データがある | Aligning・Quantization | | 時系列+テキストのペアデータがある | Aligning(相似性マッチング型) | | 既存 LLM/画像モデルを転移したい | Aligning(LLM バックボーン型) | ## 関連概念との位置づけ - [[時系列基盤モデル]](TSFM) — 大規模多ドメイン時系列で事前学習したゼロショット基盤モデル。Aligning の LLM バックボーン型(One Fits All 等)が前史となり、Chronos・TimesFM・Toto 等の専用 TSFM へと発展した。 - [[エージェント型時系列予測]] — Tool アプローチをさらに発展させ、LLM エージェントが検索・コード実行・マルチステップ推論を組み合わせる枠組み。 - [[異常検知]] — Aligning・Prompting アプローチはログ・メトリクス系列の異常検知にも適用される。 ## 横断的知見 - **Prompting アプローチのゼロショット優位性**: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] は、ファインチューニング済み言語モデル(Bigbird・Bart 等)が CT および ECL サブセットで SOTA 数値モデルと同等以上の RMSE を達成し、ゼロショット設定では数値モデルを大幅に上回ることを定量化した。サーベイ [Zhang+ 2024](@2024__Zenn__tsurubee__LLM-for-Time-Series 経由)が指摘するゼロショット能力の有望性を、実ベンチマーク数値で初めて裏付けた研究に相当する。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]], [[@2024__Zenn__tsurubee__LLM-for-Time-Series]]) - **大規模 LLM(GPT-3.5)はゼロショット予測では精度・コスト双方で劣る(2022-2023 年時点)**: PromptCast の実験(2023 年 8 月 API アクセス)では GPT-3.5-turbo が CT RMSE 10.3・SG Missing Rate 82.8% と全手法中最悪。同モデルはコストも Transformer-based 数値モデルの約 14 倍。この結果は後続の TSFM(Toto 等)が「LLM 汎用モデルより時系列特化モデルが優位」と主張する根拠と連続する。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]], [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]) - **補助的な時間情報(日時・文脈)をテキストとして包摂することで数値モデルの temporal embedding に相当する効果を達成する**: PromptCast のアブレーション研究(表 X)で日時補助情報の有無が性能に大きく影響することが示された。数値モデルの timeF/fixed/learned 埋め込みとの対比が興味深い。(Source: [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]]) ## 未解決の問い - PromptCast を発展させた多変量・長ホライズン向けの自動プロンプティング設計は今後どのように進展するか。 - GPT-3.5 以降の大規模 LLM(GPT-4o・Claude 等)は 2022 年時点の実験結果を覆すほどゼロショット時系列予測が改善されているか。 - 専用 TSFM(Toto・Chronos 等)と言語モデルの Prompting アプローチを組み合わせたハイブリッド手法(Toto-1.0-QA-Experimental 等)は Prompting アプローチのどの限界を克服するか。 ## 横断的知見(続) - **LLMTime: 数値桁列テキスト化によるゼロショット外挿**: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] は数値を桁単位でスペース区切りにする手法(LLMTime)で、GPT-3・LLaMA-2 70B が Darts/Monash/Informer の 3 ベンチマーク(計 29 データセット)で ARIMA・TCN・N-HiTS と同等以上の MAE・CRPS を達成することを示した。LLM の簡潔性バイアス(Occam's razor prior)と反復バイアスが季節性・トレンドと構造的に一致することが機能の理由として示される。GPT-4 は GPT-3 より予測が悪化するという反直感的結果も報告され、RLHF などのアライメント処理が確率的較正を損なうことが時系列タスクで再確認された。(Source: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]]) - **LLM 転用 vs 時系列専用学習の性能差**: [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] (TimesFM)は 200M パラメータの時系列専用 decoder-only モデルが、GPT-3 ベースの LLMTime より Monash 幾何平均スケーリング MAE を 25% 以上改善することを示した。LLMTime のゼロショット能力を実証した [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] の結果と対比すると、汎用 LLM のゼロショット能力に実用価値はあるが、時系列専用設計には約 25% の精度ギャップがある。この差が「専用 TSFM の正当性」の定量的根拠となる。(Source: [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]], [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]]) - **第 6 のアプローチ「TS-MLLM(ネイティブ多変量モダリティ)」の追加が必要になった**: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] が提案する [[ChatTS]] は、本ページが整理する 5 既存アプローチ(Prompting/Quantization/Aligning/Vision/Tool)のどこにも収まらない。時系列を画像 MLLM の画像と同等のネイティブな多変量モダリティとして扱う TS-MLLM([[時系列マルチモーダルLLM]])が第 6 のアプローチとして必要になる。Prompting と TS-MLLM の本質的差異は、Prompting が単変量・予測タスク中心で数値テキスト化を経由するのに対し、TS-MLLM はテキストの位置に時系列パッチを挿入することで複数系列の文脈関係を保持し、可変長・多変量・自然言語クエリ駆動の理解と推論を主タスクに据える点にある。ChatTS の text-only ablation(Fig 9-10)で、時系列エンコーダを取り去ると MTS タスクでほぼ回答不能になることが示され、本ページの「Prompting」路線が多変量理解で原理的に限界を持つことが定量化された。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - **「LLM を判定器として直接使う」路線で異常検知の解釈性と精度を同時に得られる(Prompting アプローチの新形態)**: [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] の [[LLMAD]] は Prompting カテゴリの拡張として位置づけられるが、PromptCast/LLMTime とは設計が異なる。LLMTime が「LLM を予測器として使う」ためゼロショット予測誤差を異常信号にすると、KPI/WSD/Yahoo の TSAD で Best F1=0.128 に留まる(同論文 Table 2)。これに対し LLMAD は「LLM を判定器として直接使う」設計(In-Context Learning で正常・異常両履歴を検索 + AnoCoT でドメイン知識と段階的推論を注入)で、平均 Best F1=0.759 と TFAD(0.725)を上回り、年間運用コスト約 $65.70。本ページが整理する「Prompting アプローチは数値推論の限界で実用に届きにくい」という観察(GPT-3.5 が CT RMSE 10.3 等)を、「Prompting + ドメイン知識注入 + 履歴 ICL」で乗り越えうることを実証した。同論文の知見は [[時系列基盤モデル]] 路線(Toto/TimesFM)とは別の方向で、Prompting にどう構造を与えるかが LLM × 時系列の性能を律速することを示唆する。(Source: [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]], [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]]) - **「合成データのみ訓練 + ネイティブモダリティ」路線が、時系列専用基盤モデルとは別軸で実用域に到達した**: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] は属性プール(Trend 4 種・Periodicity 7 種・Noise 3 種・Local Fluctuation 19 種)+ 567 メトリクス名の組合せから生成した完全合成データのみで Qwen2.5-14B を SFT し、GPT-4o vision を alignment +46.0% / reasoning +25.8% で上回る。これは [[時系列基盤モデル]] 路線(Toto/TimesFM が大量実データで事前学習)と対照的で、「実データの調達難に対し、属性離散組合せという中間表現で実世界系列の主要パターンを近似的に張る」設計の有効性を示す。本ページが整理する 5 アプローチのうち Aligning 路線(One Fits All の凍結 FPT、Time-LLM の reprogramming)が「既存 LLM/画像モデルからの転移」を主軸にしてきたのに対し、ChatTS は「合成データの構造化」自体で勝負する第 6 路線として再分類できる。(Source: [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]], [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]]) ## 未解決の問い(続) - LLMTime で確認された「GPT-4 がGPT-3 より劣る」スケーリング逆転現象は、2024 年以降の大規模 LLM(Claude-3/GPT-4o 等)でも再現するか。 - アライメント処理(RLHF)が時系列予測の確率的較正を損なうメカニズムは、言語タスクの過自信問題と同一か別か。 - [[LLMAD]] が示した「Prompting + ドメイン知識注入 + 履歴 ICL」設計は、予測タスクや多変量タスクにも一般化できるか。Prompting カテゴリ内で「LLM を予測器として使う(LLMTime)」と「LLM を判定器として使う(LLMAD)」の分岐は、どこまで他の時系列タスクで再現するか。([[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]]) - TS-MLLM([[時系列マルチモーダルLLM]])と時系列基盤モデル([[時系列基盤モデル]])の分業はどうあるべきか。TSFM が高精度な予測埋め込みを返し、TS-MLLM が自然言語推論する 2 段構成は、両者の限界(TSFM は理由を語れない、TS-MLLM は OOD パターンに弱い可能性)を相補的に補えるか。([[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]) - ChatTS の属性プール(基本 4 カテゴリ)に含まれない病的パターン——複数周期のネスト、非定常変化、混合分布のノイズ——は、Prompting + 履歴 ICL(LLMAD 型)で補えるか、それとも属性プール拡張が必要か。 ## ソース - [[@2024__Zenn__tsurubee__LLM-for-Time-Series]] — [[Hirofumi Tsuruta]](Zenn ハンドル tsurubee、SAKURA internet)による解説記事。サーベイ論文 [Zhang+ 2024] に基づき 5 分類を紹介。 - [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] — [[Hao Xue]]・[[Flora Salim]]([[University of New South Wales]])による arXiv 2022 論文(arXiv:2210.08964、18p)。Prompting カテゴリの原典的研究。[[PISA]] データセット公開。 - [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] — [[Nate Gruver]]・[[Marc Finzi]]・[[Shikai Qiu]]・[[Andrew Gordon Wilson]](NYU/CMU)による NeurIPS 2023 論文(arXiv:2310.07820)。LLMTime。桁列テキスト化＋連続密度変換でゼロショット時系列予測。 - [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] — [[Tian Zhou]] ほか([[Alibaba Group]] DAMO Academy)による NeurIPS 2023 論文(arXiv:2302.11939)。Frozen Pretrained Transformer(FPT)。GPT-2 の self-attention/FFN を凍結し 7 タスク統一。 - [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] — [[Abhimanyu Das]] ほか([[Google Research]])による ICML 2024 論文(arXiv:2310.10688)。[[TimesFM]]。200M パラメータのゼロショット時系列基盤モデル。 - [[@2025__KDD__Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection]] — [[Jun Liu (UCAS)]]・[[Chaoyun Zhang]] ほか([[Microsoft]] + UCAS + ZJUT)による KDD 2025 論文。[[LLMAD]]。Prompting + 履歴 ICL + AnoCoT による解釈可能な単変量 TSAD。 - [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]] — [[Zhe Xie]] ほか([[Tsinghua University]]/[[BNRist]] + [[ByteDance]] + [[BizSeer]])による PVLDB 2025 論文。[[ChatTS]]。属性ベース合成データのみで多変量 TS-MLLM を構築。