# 言語モデルと TSFM の decoder-only アーキテクチャの差異
Navigation: [[index]] | [[questions/_index]]
## 背景:なぜ decoder-only を借用したか
LLM の decoder-only Transformer は「前のトークンだけを見て次のトークンを予測する」因果自己回帰のアーキテクチャだ。[[LLMTime]] が「数値を桁列テキストに変換するだけで GPT-3 がゼロショット時系列予測できる」ことを示し(NeurIPS 2023)、[[TimesFM]] がその先を「時系列専用の decoder-only」として形式化した。設計思想は転用だが、実装は大きく異なる。(Source: [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]], [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]])
## Transformer の基礎
Transformer は「入力の列を受け取り、各要素が他のどの要素と関係しているかを計算しながら処理するニューラルネットワーク」だ。この「どの要素とどれだけ関係するか」を計算する仕組みが Self-Attention(自己注意機構)にあたる。
**Decoder-only** はデコーダだけを使う設計で、「左側の情報だけを見て次を予測する」という因果制約(未来を見ない)を持つ。GPT 系の LLM はすべてこれだ。過去のデータだけから未来を予測する時系列予測と構造的に整合する。
## 7 つの差異
### 1. 入力の切り方(トークン化)
**LLM**: テキスト → BPE/SentencePiece で離散トークン ID → 埋め込みテーブル引き。語彙(約 5 万語)の中の離散要素として処理。「3.14」は「3」「.」「1」「4」と別トークンに分解され数値の意味が失われる。
**TSFM**: 連続数値 → **パッチ**(固定幅の数値ウィンドウ、例:32 タイムステップ)→ 線形射影(または残差 MLP)で連続埋め込み。語彙なし、離散化なし。パッチ化により計算量を大幅削減(512 点 → 16 パッチ、Self-Attention の計算量が約 1/1000 に)。
### 2. 出力の種類
**LLM**: 語彙上の softmax → 次の離散トークンの確率分布(約 5 万クラスの分類問題)。
**TSFM**: 次のパッチの連続値を予測(回帰問題)。TimesFM は MSE(点予測・決定論的)、Toto 1.0 は Student-T 混合(確率的)、Toto 2.0 はピンボール損失による 9 分位出力——「中央値 0.70・90 分位点 0.95」のように不確実性ごと予測できる。
### 3. スケール対処(正規化)
**LLM**: 単語間に絶対スケールの概念がなく、LayerNorm / RMSNorm で系列内の相対的スケールを調整するだけで十分。
**TSFM**: CPU 使用率(0〜100%)とネットワーク帯域(0〜数 Gbps)を同じモデルで扱う場合、数桁の差がある。**インスタンス正規化**(系列ごとに平均を引いて標準偏差で割り → 予測後に逆変換)が必須。Toto 2.0 は `arcsinh((x-μ)/σ)` で外れ値を対数圧縮しつつ符号を保持する。
### 4. 注意が捉える関係の次元数
**LLM**: 時間軸のみの因果自己注意——「1 本の文の中でトークン間の関係」だけを計算。
**TSFM**: 2 つの軸がある。
- **時間軸**: 過去と現在の値の関係(「昨日の値が高いから今日も高い」)
- **変量軸**: 複数系列間の関係(「CPU が高いとレイテンシも高い」)
Toto は時間軸注意と変量軸注意を交互に積む(時間:変量 = 11:1 の比率)。[[Falcon-X]] はさらに踏み込み変量をプロトタイプ空間にマッピングして変量間計算量を O(M²)→O(M·C) に線形化。LLM には変量軸という概念自体が存在しない。
### 5. 推論の自己回帰からの脱却
**LLM**: 1 トークン生成 → 再入力 → を繰り返す。100 トークン生成には 100 回フォワードパスが必要。
**TimesFM**: 出力パッチ長 > 入力パッチ長にして、1 パスで複数ステップを進める。
**Toto 2.0(CPM)**: 学習時に連続パッチをまとめてマスクし一度に予測するよう訓練。推論時は全ホライズンを **1 回のフォワードパスで出し切る**。313M パラメータが Chronos-2(120M)と同等レイテンシを達成する理由がこれだ。
```
LLM 方式: [過去] → [t+1] → [t+2] → [t+3] ← 3 回フォワードパス
CPM 方式: [過去] → [t+1, t+2, t+3] ← 1 回で全部
```
時系列予測では未来のホライズン全体を既知の過去だけから一括予測できるので、LLM の自己回帰制約は不要だ。
### 6. 位置情報の意味
**LLM**: 「この単語は文の何番目か」という位置情報(RoPE・ALiBi など)。文の順番に意味があるだけ。
**TSFM**: 「このパッチは時系列の何番目か」+ **「この系列の時間粒度は何か」**。1 分間隔と 1 日間隔では季節性のスケールが全く違うため、粒度情報が必要。TimesFM は frequency embedding、Cisco TSM は resolution embedding でこれを表現する。
### 7. 事前学習の問題の形
**LLM**: 前のトークン列から次のトークンを当てる(次トークン予測)。兆トークン規模で繰り返す。
**TSFM**: 前のパッチ列から次のパッチを当てる(次パッチ予測)。Toto 2.0 の CPM はランダムに連続パッチをマスクして一度に当てる形式。兆点規模で繰り返す。
## 差異の総括
```
共通: 因果マスク付き Self-Attention を重ねたネットワーク
大規模データで事前学習 → ゼロショット汎化
スケーリング則への期待
LLM: 離散トークン → 語彙上の softmax → 離散サンプリング
TSFM: 連続パッチ → 分位点回帰 → 連続数値
TSFM 追加: インスタンス正規化(スケール対処)
変量軸注意(多変量関係)
シングルパス推論(レイテンシ削減)
粒度埋め込み(時間解像度の差異)
```
「decoder-only」という枠組みは共通だが、**① 入力が連続パッチ(語彙なし)、② 出力が連続確率分布(回帰)、③ 正規化が系列スケール対応、④ 推論が非自己回帰方向へ進化、⑤ 注意が時間 × 変量の 2 軸**という 5 点で言語モデルの実装とは根本的に異なる設計になっている。
## なぜ LLM アーキテクチャへの直接転用では不十分か
[[LLMTime]] は GPT-3 が数値桁列でゼロショット時系列予測できることを示したが、[[TimesFM]] はその後 25% 以上の精度改善を達成した。差の理由がこの 7 つの設計差にある。特に「離散トークン化による数値意味の損失」と「スケール対処の欠如」が大きい。[[One Fits All]] は LLM(GPT-2)の self-attention を凍結したまま時系列タスクに転用できることを示したが、それでも専用 TSFM には届かない——アーキテクチャ全体の再設計が必要だった。(Source: [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]], [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]])
## 出典
- [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]](CPM・NorMuon・arcsinh 正規化・変量軸注意の詳細)
- [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]](TimesFM: TSFM としての decoder-only 形式化)
- [[@2023__NeurIPS__Large Language Models Are Zero-Shot Time Series Forecasters]](LLMTime: 離散トークン化の限界と可能性)
- [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]](LLM 凍結転用の可能性と限界)
- [[@2025__arXiv__Foundation Models for Time Series - A Survey]](6 次元タクソノミーによる分類)
- [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]](変量軸注意の発展形)