# TSFM・TS-MLLM・Toto-Qwen3-VL の比較と Transformer 基礎
## 問い
時系列基盤モデル(TSFM)、時系列マルチモーダル LLM(TS-MLLM)、そして両者を統合した Toto-Qwen3-VL の三者は、それぞれ何を目的としどう違うのか。またその差異を理解するために必要な Transformer の基礎知識は何か。
---
## Part 1: Transformer の基礎
### 1-1. 自己注意(Self-Attention)
Transformer の核心は「**入力列の各要素が、他の要素をどれだけ参照すべきかを学習する機構**」だ。時系列に当てはめると「各時刻の値が、過去のどの時刻を重視するか」を学習する。
```
入力: [t=0の値, t=1の値, ..., t=Tの値]
各時刻 t について:
1. 全時刻 t' との「関連度スコア」を計算(内積 → softmax)
2. スコアに従った重み付き平均で近傍情報を集約
3. 集約結果を「t の新しい表現」とする
```
計算量は入力長 T に対して O(T²)。系列が長いほど急激にコストが増加する。これが時系列モデル設計における「コンテキスト長のボトルネック」の正体である。
### 1-2. パッチ化(Patching)
O(T²) の問題を TSFM が解決する主な手段。生の時系列を固定長の窓(パッチ)に分割し、各窓を 1 ベクトルに圧縮してから Transformer に渡す。
```
生の時系列: T 点
→ パッチサイズ P で分割
パッチ列: T/P 個
→ 各パッチを埋め込み層で1ベクトルに変換
トークン列: T/P トークン
計算量: O(T²) → O((T/P)²)
```
パッチ化はトークンの数を 1/P² に削減し、同時に局所的な数値パターン(短期トレンド・スパイク形状)を 1 トークンに凝縮する。
### 1-3. Encoder と Decoder の違い
| | Encoder | Decoder |
|---|---|---|
| 注意の向き | **双方向**(前後すべてを参照) | **単方向**(過去のみ参照) |
| 主な用途 | 表現の抽出・分類・埋め込み生成 | 系列の自己回帰生成・予測 |
| TSFM の例 | Falcon-X(masked reconstruction) | Toto・TimesFM(next-patch prediction) |
予測タスクが Decoder を選ぶ理由: 未来の値を参照せずに予測するには、未来方向への注意を遮断する因果マスキング(causal masking)が必要で、Decoder はこれを構造として持つ。
### 1-4. トークン化の多様性
「何を 1 トークンとするか」はモデルの設計思想を決める。
| モデル | 1 トークンに対応するもの |
|---|---|
| GPT 系(自然言語) | サブワード |
| Chronos | 時系列値を 4096 ビンに量子化した整数値 |
| Toto / TimesFM | 固定長パッチ(例: 32 時刻分の窓) |
| ChatTS(TS-MLLM) | 変量 1 本の全系列を 5 層 MLP が変換したベクトル |
| Toto-Qwen3-VL | 変量 1 本を Toto → variate MLP で時間集約した **1 ベクトル** |
Chronos の量子化は特徴的な設計で、回帰問題を分類問題として解く。値を対数スケールで 4096 段階に離散化し、クロスエントロピー損失で学習することで、LLM と全く同じパイプラインが使える。代わりに量子化誤差が精度の上限を制約する。
### 1-5. 事前学習とファインチューニング
大規模データで汎用的な表現を学習する「事前学習」と、特定タスク向けにパラメータを調整する「ファインチューニング」の 2 段構成がほぼすべての現代モデルに共通する。
**LoRA(Low-Rank Adaptation):** 元の重みを凍結し、重み行列の「差分」を低ランク行列の積で近似して学習する軽量手法。全パラメータの 0.1〜1% 程度を学習するだけでフルファインチューニングに匹敵する効果を持つ場合がある。
**RLVR(Reinforcement Learning with Verifiable Rewards):** SFT が「正解例の模倣」であるのに対し、RLVR は「最終答えの正誤(0/1 報酬)」だけで推論パターンを強化する。中間ステップへの報酬設計が不要なため、多肢選択 QA のような検証可能なタスクに適合する。Toto-Qwen3-VL では DAPO レシピ(PPO 系の非対称クリップ目的)を採用し、SFT 後から精度を +15.4pp 改善した。
---
## Part 2: 三者の定義と信号フロー
### 2-1. TSFM(時系列基盤モデル)
大規模な多ドメイン時系列で事前学習し、ドメインごとの再学習なしにゼロショット予測を提供する基盤モデル。
**信号フロー(Toto を例に):**
```
生時系列値 [T×V]
→ パッチ化 + 埋め込み
→ Decoder-only Transformer(因果的自己注意)
→ Student-T 混合分布ヘッド
→ 予測値・確率分布
```
出力は常に「数値または数値の確率分布」。言語出力の機構を持たない。
**アーキテクチャの分岐:**
- Decoder-only: Toto(151M・次パッチ予測・NLL)、TimesFM(200M・Huber 損失)、Time-MoE(2.4B・MoE+Huber)
- Encoder-only: Falcon-X(591M・masked reconstruction)、Chronos は T5 ベースの Encoder-Decoder
- Chronos は量子化+クロスエントロピーで確率的分布をサンプリング
### 2-2. TS-MLLM(時系列マルチモーダル LLM)
時系列を画像 MLLM の画像と同等のネイティブなモダリティとして LLM に渡し、テキストクエリと組み合わせて理解・推論・対話を行う。ChatTS(Xie+, VLDB 2025)がカテゴリを初めて定義した。
**信号フロー(ChatTS を例に):**
```
生時系列値 [T×V]
→ 変量ごとに独立して 5 層 MLP を通過(スクラッチ学習)
→ LLM 埋め込み次元へ射影
テキストクエリ
→ テキストトークン列
[時系列トークン列 + テキストトークン列]
→ Qwen2.5-14B-Instruct の双方向自己注意
→ テキスト生成ヘッド
→ 自然言語出力(分類ラベル + 推論テキスト)
```
TS エンコーダ(5 層 MLP)は**スクラッチで学習する**。訓練データは属性プール(Trend 4 種・Periodicity 7 種・Noise 3 種・Local Fluctuation 19 種)とメトリクス名 567 種の組み合わせから生成した完全合成データのみ。
### 2-3. Toto-Qwen3-VL
事前学習済み TSFM(Toto)と VLM(Qwen3-VL 32B)を結合学習するハイブリッドアーキテクチャ。[[ARFBench]] 論文(Xie+, arXiv 2026)が提案した実験的モデル。
**信号フロー:**
```
生時系列値 [T×V]
→ 事前学習済み Toto で時系列埋め込みを取得
→ Variate Embedding MLP:
時間方向を集約・正規化・射影
→ 変量 V 本 × T 時刻 → 変量 V 本 × 1 ベクトル
→ VLM Projection Layer: Qwen3-VL の隠れ次元へ射影
折れ線プロット画像
→ Qwen3-VL ビジョンエンコーダ → 視覚トークン列
テキストキャプション
→ テキストトークン列
[時系列埋め込み V 個 + 視覚トークン + テキストトークン]
→ Qwen3-VL 32B の統合自己注意
→ テキスト生成 + JSON 多肢選択回答抽出
```
新規学習対象は **variate embedding MLP + VLM projection layer のみ**。Toto と Qwen3-VL の重みはそれぞれ事前学習済みのものを再利用し、LoRA アダプタで段階的に微調整する。
---
## Part 3: 三者の比較
### 3-1. 共通点
**「時系列を直接扱う」設計思想**
三者ともに時系列をテキスト変換(LLMTime 等)する路線に対抗し、数値列の構造を保持する専用エンコーダを持つ。ChatTS の ablation では「テキスト化した場合に MTS タスクで回答不能になる」ことが示されており、テキスト化路線の限界が実証されている。
**合成データを活用できる**
Chronos の KernelSynth(ガウス過程カーネルの組み合わせ)、ChatTS の属性プール組み合わせ生成、Toto-Qwen3-VL の異常注入合成データが、それぞれ実世界ゼロショット汎化を達成した。「合成データのみで実世界に通用する」という知見が共通する。
**多変量時系列が共通の課題**
TSFM 側では Chronos-2 の Group Attention・Falcon-X の cross-variate エンコーダが単変量から多変量への移行を試みる。TS-MLLM 側では ChatTS が「テキスト化では MTS の文脈関係が失われる」ことを示した。出発点は異なるが課題認識が一致する。
**TSFM が TS-MLLM のエンコーダとして再利用される相補関係**
ARFBench で事前学習済み Toto を VLM のエンコーダとして使った Toto-Qwen3-VL が TSQA 全モデル最良(63.9%)を達成した。TS-MLLM の未解決の問いにも「TSFM との統合は有望か」が明示されており、両者は対立より補完的な位置関係にある。
### 3-2. 差異の詳細
#### TS エンコーダの出自
| | TSFM | TS-MLLM (ChatTS) | Toto-Qwen3-VL |
|---|---|---|---|
| エンコーダの出自 | 大規模時系列事前学習(モデル本体) | スクラッチ学習 5 層 MLP | 事前学習済み TSFM (Toto) を再利用 |
| 学習データ | 数百億〜数兆点の多ドメイン時系列 | 完全合成データ(属性プール×567 種) | Toto はすでに学習済み。接続層のみ合成 12K + 実 395 例 |
Toto-Qwen3-VL が少量データでフロンティアモデルを超えた根拠の一つは、Toto が観測ドメイン特有の分布(裾の重さ・スパイク・スケール情報)をすでに内包しており、接続層だけを学習すれば済む点にある。
#### 多変量の次元の扱い
ARFBench の系列は変量数中央値 10.5・最大 2,283、系列長中央値 367・最大 40,969 という大規模な多変量入力を含む。
```
パッチ化なしで全点をトークン化:
T=40,000 × V=2,000 → 8,000 万トークン → 不可能
Toto の内部パッチ化(P=32)のみ:
(40,000/32) × 2,000 = 250 万トークン → まだ多い
Variate Embedding MLP で時間方向を集約:
V = 2,000 トークン → VLM が扱える
```
ChatTS は変量ごとに MLP を通した後の埋め込みをそのまま LLM のコンテキストに積み上げるため、変量数が大きい系列では文脈長を圧迫する。ChatTS が扱う系列(AIOps・気象・NAB)は変量数が小さいため実用上の問題はなかった。
#### モダリティの数
| | TSFM | TS-MLLM (ChatTS) | Toto-Qwen3-VL |
|---|---|---|---|
| 時系列 | ○ | ○ | ○ |
| テキスト | × | ○ | ○ |
| 画像(折れ線プロット) | × | × | ○ |
Time-RA(TS-MLLM の一例)は画像+時系列のハイブリッドを試み「推論一貫性の向上には安定的に寄与するが定量分類精度への効果はモデル依存」という結論を得た。Toto-Qwen3-VL はこれをさらに押し進め、三モダリティを Qwen3-VL の統合自己注意で処理する。
#### 訓練パイプラインの構造
| 段階 | TSFM | ChatTS | Toto-Qwen3-VL |
|---|---|---|---|
| 基盤 | 時系列大規模事前学習 | LLM 言語事前学習(外部) | TSFM 事前学習 + VLM 事前学習(両方外部) |
| 接続層 | なし(単一モデル) | TS MLP + LLM を合成 SFT で同時訓練 | Variate MLP + VLM Projection を合成 SFT(Stage 1) |
| ドメイン適応 | 観測データ特化継続学習(Toto) | なし | 実データ 395 例で SFT(Stage 2) |
| 強化学習 | なし | なし | **RLVR (DAPO)** → +15.4pp(Stage 3) |
| 凍結戦略 | 全パラメータ学習 | LLM + MLP を同時最適化 | 各 Stage で前 Stage のアダプタを凍結、新 LoRA のみ学習 |
SFT は「正解例の模倣」だが、RLVR は「最終答えの 0/1 報酬」だけで推論パターンを自律的に強化する。この違いが Stage 3 での大幅な精度向上を生む。
#### 出力と評価軸
| | TSFM | TS-MLLM (ChatTS) | Toto-Qwen3-VL |
|---|---|---|---|
| 出力形式 | 時系列値 / 確率分布 | 自然言語(ラベル + 推論) | 多肢選択回答 + 推論テキスト |
| 評価指標 | MASE(点予測) / CRPS(確率的) | categorical / numerical F1 | 精度・macro-F1(Tier I/II/III 別) |
| タスク粒度 | 将来値の予測 | 単一系列の理解・分類 | **複数系列にまたがる因果推論**(先行/遅行判定) |
Toto-Qwen3-VL が扱う ARFBench Tier III(Leading/Lagging Indicator)は複数系列の相関・因果方向を問うタスクで、全モデルで最難(最良 GPT-5 でも F1 48.4%)。ChatTS が評価する単一系列の属性理解(Tier I/II に相当)とはタスク粒度が異なる。
---
## Part 4: 全体の構図
### 役割分業
```
TSFM ────────── 予測精度の担い手
│ (数値→数値、MASE/CRPS で競争)
│
├─ エンコーダ再利用 ──→ Toto-Qwen3-VL ←── VLM(言語・視覚)
│ (TSQA 特化の統合層)
│ RLVR で推論能力を強化
│
└─ 別系統 ──────────→ TS-MLLM (ChatTS 等)
(汎用理解・完全合成データ路線)
```
三者は「置換」でなく**階層的分業**にある。
- TSFM は予測精度と観測データの数値表現を提供し、TS-MLLM と Toto-Qwen3-VL の上流として機能しうる。
- TS-MLLM は汎用の多変量理解を合成データで効率的に習得し、特定ドメインに縛られず広く使える。
- Toto-Qwen3-VL は「TSFM の数値精度 × VLM の言語推論 × RLVR の検証可能報酬」を統合し、インシデント対応という特定ドメインで **Model-Expert Oracle(精度 87.2%)** という超人的フロンティアを達成した。
### LLM 転移の有効性という逆説
Chronos(TSFM の一種)は「LLM の重みで初期化しても精度優位なし」と示した。一方 TS-MLLM は LLM の**言語推論能力そのもの**を活用し、Toto-Qwen3-VL は VLM の視覚・言語能力を引き継ぐ。
この逆説の解釈: LLM の**テキスト埋め込み空間**は時系列数値予測に転移しないが、LLM の**言語推論機構**(注意パターン・Chain-of-Thought 能力)は時系列を「読んで理解する」タスクには有効に転移する。「どの部位を転移させるか」で有効性が変わる。
---
## 未解決の問い
- **エンコーダ設計の決定的優位は何か**: ChatTS の「5 層 MLP スクラッチ」と Toto-Qwen3-VL の「事前学習済み TSFM 再利用」を同一訓練条件・同一 VLM バックボーンで比較した実験は未実施。どちらが本質的に優位かは未解決。
- **TS-MLLM と TSFM の 2 段スタックの汎用性**: Toto-Qwen3-VL はインシデント対応 TSQA に特化している。汎用の理解・推論タスクでも「TSFM エンコーダ + VLM」が ChatTS 型のスクラッチ MLP を上回るか未検証。
- **Tier III(複数系列因果推論)の限界**: 全モデルで最難のタスクであり、Toto-Qwen3-VL も Tier III F1 は Tier I/II に比べて低い。複数系列にまたがる因果推論を解くには何が欠けているか。
- **RLVR の恩恵の汎化**: DAPO で観測ドメインの問答能力を強化したが、他ドメイン・他タスクへの転用でも同様の改善幅が得られるか。
---
## 関連
- 概念: [[時系列基盤モデル]] / [[時系列マルチモーダルLLM]] / [[時系列推論]] / [[時系列質問応答]] / [[時系列異常検知ベンチマーク]]
- エンティティ: [[Toto]] / [[Toto-1.0-QA-Experimental]] / [[ChatTS]] / [[Qwen3-VL]] / [[ARFBench]] / [[Chronos-2]] / [[Falcon-X]]
- ソース:
- [[@2025__VLDB__ChatTS - Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning]]
- [[@2026__ACL Findings__Time-RA - Towards Time Series Reasoning for Anomaly Diagnosis with LLM Feedback]]
- [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]
- [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]
- [[@2025__arXiv__Chronos-2 - From Univariate to Universal Forecasting]]
- [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]]