時系列トークナイゼーション

# 時系列トークナイゼーション ## 定義時系列トークナイゼーション(Time Series Tokenization)とは、連続値の時系列観測をトークンの列に変換し、言語モデルや離散系列モデルが扱えるようにする前処理・エンコーディング手法の総称。トークン化の方式は「何を語彙にするか」「意味の連続性をどう保つか」「確率分布の形状をどう表現するか」という設計上の問いに対する異なる答えとして分類できる。主要な動機は、自然言語処理で確立された大規模 Transformer(T5・GPT-2 等)を時系列の確率的予測に再利用すること。数値の直接入力は Transformer の埋め込み空間に適さないため、トークン化が橋渡しとして機能する。 ## 主要方式の比較 ### 1. スケーリング + 均一量子化(Chronos 方式) [[@2024__arXiv__Chronos Learning the Language of Time Series]](Ansari+ 2024)が提案した方式。 **手順**: 1. **平均スケーリング**: コンテキスト系列の絶対値平均 $s$ で値を正規化し、スケール不変性を確保する。$s = \max(\frac{1}{C}\sum_{t=1}^C |z_t|,\, \epsilon)$ 2. **均一量子化**: 正規化済み値を $[-15, +15]$ の範囲に定義した $B = 4096$ 個の等幅ビンへマッピング。各ビン $b_k = -15 + \frac{30k}{B}$, $k = 0, \ldots, B-1$。 3. **特殊トークン**: PAD・EOS トークンを追加し、語彙サイズは $|V_{ts}| = B + 2 = 4098$。 **利点**: - 語彙設計がシンプルで実装が容易。 - 任意の時系列を固定語彙に写像できるためゼロショット汎化に適する。 - クロスエントロピー損失を確率的予測の目的関数として使える(クラス分類として回帰を解く)。 - 複数サンプルを独立にサンプリングし、その経験分布でパーセンタイルを推定できるため柔軟な確率予測が可能。 **制約**: - 量子化誤差: 実数値は最近傍ビンへ丸められ、精度は語彙サイズ $B$ に依存。 - オーバーフロー: $[-15, +15]$ を外れる外れ値は境界ビンへクリップされ情報損失が起きる。$B = 4096$ は $B = 1024$ より大幅に性能が向上するが、$B = 4096$ と $B = 8192$ の差は小さい。 - 順序情報は損失関数で暗黙的にしか学習されない(順序回帰を使っていない)。 ### 2. 桁列テキスト化(LLMTime 方式) [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]](Gruver+ 2023)が提案した方式。数値を ASCII テキストの桁単位トークン列として表現する。例: `3.14` → `3`, `.`, `1`, `4`(スペース区切りで BPE 分解問題を軽減)。 **利点**: 既存 LLM に追加学習不要でゼロショット予測が可能。LLM の簡潔性バイアスが季節性・トレンドと構造的に一致する。 **制約**: 数値の大きさや順序関係を言語空間で適切に保持するのが困難。GPT-4 が GPT-3 より予測精度が低下するというスケーリング逆転現象が報告された(RLHF の影響と推測)。 ### 3. 自然言語テンプレート化(PromptCast 方式) [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]](Xue+ 2023)が提案した方式。時系列の値と文脈(日時・カテゴリ等)を自然言語テンプレートに埋め込み、「質問 → 回答」形式で予測する。 **利点**: 外生変数や定性的文脈をテキストとして自然に組み込める。 **制約**: 数値精度の限界があり、複雑な数値パターンよりも低頻度なドメイン知識が求められる場面で有利。 ### 4. パッチ化(連続値埋め込み方式) TimesFM・Toto 等の専用 TSFM が採用する方式。時系列値を固定長の「パッチ」(例: 32 点)に区切り、線形射影で連続値埋め込みベクトルを作る。離散トークンを使わず確率分布の尾を直接学習する。 **利点**: 量子化誤差がなく、裾の重い分布(観測テレメトリ等)に適応しやすい。スケーラブルで高精度。 **制約**: 既成の LLM 語彙を再利用できず、専用エンコーダを一から学習する必要がある。 ## 横断的知見 - **クロスエントロピー損失で回帰を解くことの有効性**: Chronos(方式 1)はクロスエントロピー損失を確率的予測に使い、語彙内のビン順序を**明示的に指定せず**暗黙的に学習させる。アブレーション([[@2024__arXiv__Chronos Learning the Language of Time Series]] §5)で $B=4096$ が $B=1024$ より顕著に優れ、クロスエントロピー損失が回帰目的として十分に機能することが実証された。(Source: [[@2024__arXiv__Chronos Learning the Language of Time Series]]) - **LLM 転用には量子化設計が鍵であり、桁列方式にはスケーリング逆転の罠がある**: LLMTime(方式 2)で GPT-4 が GPT-3 より予測精度が低下した原因は、RLHF などのアライメント処理が確率的較正を損なうことと解釈された。対してスケーリング + 均一量子化(方式 1)は **T5 の言語モデル重みで初期化しても、ランダム初期化と同等かそれ以下の精度差しか出ない**という知見が Chronos の §5.5 で報告された。これは「LLM の語彙的事前知識が時系列トークンに有効に転移するかどうか」という問いに対する暫定的な否定的回答であり、重みの転移効果は期待より低い可能性を示す。(Source: [[@2024__arXiv__Chronos Learning the Language of Time Series]], [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]]) - **時系列専用設計(方式 4)は LLM 転用系(方式 1〜2)を約 25% 以上上回る**: TimesFM([[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]])はパッチ化方式で、GPT-3 ベースの LLMTime を Monash 幾何平均スケーリング MAE で 25% 以上改善した。Chronos(方式 1)も 42 データセット包括ベンチでゼロショット SOTA を達成したが、LLM の重みを継承するより「時系列データで一から学習した重み」の方が最終精度が同等以上であるという観察と整合する。(Source: [[@2024__arXiv__Chronos Learning the Language of Time Series]], [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]]) - **語彙サイズの収益逓減**: Chronos のアブレーションでは $B=4096$ と $B=8192$ の差は小さい。適切な語彙サイズは「精度-メモリトレードオフ」で決まり、超大語彙は恩恵が少ない。(Source: [[@2024__arXiv__Chronos Learning the Language of Time Series]]) ## 未解決の問い - クロスエントロピー損失は語彙内の順序情報を暗黙的にしか学習しないが、**順序回帰損失**(Earth Mover's Distance・Wasserstein 損失等)を使うと確率的較正はさらに改善されるか。 - 平均スケーリングは絶対値平均をスケール基準にするが、**ゼロ近傍の微小系列**や**急激な急変動**がある場合に $s \approx \epsilon$ に崩落する。より頑健なスケール推定(中央値・分位数ベース)との比較が未着手。 - LLM 重みの転移効果が限定的ならば、量子化方式の真の利点は「語彙の再利用」でなく「既存 Transformer アーキテクチャの転用」か。アーキテクチャ固定で初期化だけを変えた体系的比較が不完全。 - パッチ方式(方式 4)の確率的予測はスチューデント-T 混合や正規化フロー等を追加して行うが、スケーリング + 量子化方式(方式 1)の categorical 確率表現との較正(calibration)比較は大規模ベンチで未実施。 - 多変量系列(変量 $V \gg 1$)でのトークン化: 方式 1 は単変量前提で設計されており、多変量拡張時に変量間の依存をトークン列にどう埋め込むかが未解決([[Chronos-2]] の Group Attention は別次元での解決策)。 ## 関連 - 概念: [[時系列基盤モデル]] / [[LLM時系列アプローチ]] / [[多変量時系列予測]] - ソース: [[@2024__arXiv__Chronos Learning the Language of Time Series]] / [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]] / [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]] / [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]] - エンティティ: [[Abdul Fatir Ansari]] / [[Lorenzo Stella]] / [[AWS AI Labs]] / [[Amazon Web Services]] ## 出典 - [[@2024__arXiv__Chronos Learning the Language of Time Series]](§3 量子化とスケーリング設計, §5 語彙サイズ・初期化アブレーション) - [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]](LLMTime 桁列方式, GPT-4 スケーリング逆転) - [[@2022__arXiv__PromptCast - A New Prompt-based Learning Paradigm for Time Series Forecasting]](テンプレート方式, GPT-3.5 の失敗事例) - [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]](パッチ方式, LLMTime との比較)