# TSFM単体とTSFM-VLMハイブリッドの本質的差異
## 問い
Toto はあくまで次の時系列データ点を予測するだけだが、VLM と統合すると何が違うのか?
## 短い答え
Toto から**取り出す部位**と、モデルの**入出力の型**が両方変わる。Toto 単体は予測器だが、ハイブリッド([[Toto-1.0-QA-Experimental]])では Toto を予測器としてではなく**時系列エンコーダ**として再利用し、その内部表現を言語モデルに差し込む。これにより、数値を当てるモデルから、時系列を読んで言語で説明・推論するモデルへ質的に変わる。
## 1. Toto 単体 — 「数値 → 数値」で閉じている
[[Toto]] はデコーダ専用トランスフォーマで、**次パッチ予測**タスクで事前学習される。やっていることは次のとおり。
```
過去の数値列 → [Toto] → 将来値の確率分布(Student-T mixture head)
```
出力の最終段は Student-T mixture head、つまり「次の値が従う確率分布」を吐く口である。ここに言語は一切関与しない。「この急騰の原因系列はどれか」と聞いても Toto は数値しか返せず、質問に答える機構も根拠を言語化する機構も持たない。これが「あくまで次のデータ点を予測するだけ」の意味。(Source: [[Toto]], [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]])
## 2. VLM 統合 — 予測ヘッドを捨て、中間表現を差し出す
[[Toto-1.0-QA-Experimental]](別名 Toto-Qwen3-VL)は、Toto の**予測ヘッドの手前にある中間表現(埋め込み)**を取り出し、二つの学習可能な部品で VLM([[Qwen3-VL]] 32B)の埋め込み空間へ橋渡しする(Figure 4)。
1. **variate embedding MLP** — Toto の埋め込みを時間方向に集約・正規化・射影する(文脈長が系列長に比例して伸びるのを防ぐ)
2. **VLM projection layer** — それを言語デコーダの隠れ次元へ射影する
これにより入出力の型が変わる。
```
(時系列の埋め込み + 言語の質問トークン) → [VLM = 言語デコーダ] → 自然言語の回答
↑ Toto が供給 ↑ 同じ文脈窓で混在して読む
```
Toto は予測する役をやめ、観測時系列を圧縮した意味ベクトルを供給する役に回る。言語モデルはそのベクトルと質問を同じ文脈で読み、有無・大きさ・開始終了時刻・分類・系列間の相関を**言語で答える**。これは予測ではなく解釈・推論であり、Toto 単体には存在しなかった能力である。
比喩で言えば、Toto 単体は明日の気温を数値で言う人。ハイブリッドは、その人の頭の中の気象理解(埋め込み)を、言葉を話せる人(言語モデル)の脳に直結し、「なぜ寒くなるのか」に言語で答えられるようにした構成。予測値を出す口は閉じ、内部の理解だけを差し出している。(Source: [[Toto-1.0-QA-Experimental]], [[ARFBench]])
## 3. なぜ統合が効くのか — 数値表現の保持
時系列エンコーダの埋め込みを足すことが実際に性能を生む(ARFBench Table 3)。
- Toto-1.0-QA-Experimental: ARFBench 全体で精度 **63.9%**(全モデル最良、GPT-5 62.7% を 1.2pp 上回る)。とくに Tier III(2 系列間の相関・先行遅行)で全モデル最高。
- 同条件で後段学習した **VLM 単体**(Qwen3-VL 32B)やテキスト言語モデル版(Toto-1.0-Qwen3)を**精度 7pp 以上・F1 2.3pp 以上**上回る。
なぜ単体 VLM に勝てるか。VLM 単体は時系列をプロット画像か数値文字列でしか受け取れない。ARFBench の系列は高変量(中央値 10.5・最大 2283)・長系列(中央値 367・最大 40969)で、画像化すれば解像度に潰され、文字列化すれば BPE トークナイザが桁構造を壊しトークンも爆発する。一方 Toto の埋め込みは、観測データ特化の事前学習で得た数値的構造・スケール・多変量関係を保持したまま連続ベクトルとして言語モデルに渡せる。結果、「正確な数値の知覚」を Toto が、「文脈化と言語での説明」を言語モデルが分担し、両者の単体を超える。(Source: [[ARFBench]], [[Qwen3-VL]])
## 4. 含意 — 問題の軸が移る
違いの本質は、「Toto に何を予測させるか」ではなく「**Toto の理解を言語推論にどう接続するか**」へ問題の軸が移ること。予測ヘッドを外して埋め込みを言語モデルに渡した瞬間、モデルは予測器から「時系列を読んで言語で説明する推論器」に変わる。
この構成は [[エージェント型時系列予測]](ATSF)が TSFM を「行動空間の 1 ツール」と位置づける立場とも呼応する。ATSF が予測モデルの呼び出しを行動の 1 つに格下げするのに対し、Toto-1.0-QA-Experimental は予測モデルを**知覚の器官(エンコーダ)**に作り替える。いずれも「より良い単一予測器の競争」の上の層(予測の組織化・解釈)へ関心を移す点で共通する。
## 関連
- エンティティ: [[Toto]] / [[Toto-1.0-QA-Experimental]] / [[Qwen3-VL]] / [[ARFBench]]
- 概念: [[時系列質問応答]] / [[時系列基盤モデル]] / [[エージェント型時系列予測]]
- ソース: [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]
## 出典
- [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]](§ アーキテクチャ Figure 4、Table 3)
- [[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]](Toto の次パッチ予測・Student-T mixture head)