# Toto 2.0 のアーキテクチャ:他の TSFM との特徴比較
Navigation: [[index]] | [[questions/_index]]
## 位置づけ
Toto 2.0(arXiv:2605.20119)は**観測ドメイン特化の TSFM でスケーリング則を初確立**した。「TSFM の BERT モーメント」(Toto 1.0 と同時代)から「TSFM の GPT-2 モーメント」への移行を宣言。4M〜2.5B の 5 サイズで BOOM CRPS が 7.17→3.88 と単調改善し飽和なし。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]])
## アーキテクチャ比較表
| 軸 | **Toto 2.0** | TimesFM(Google) | Falcon-X(Ant) | Cisco TSM |
|---|---|---|---|---|
| デコーダ構造 | デコーダ専用パッチ Transformer | デコーダ専用パッチ Transformer | エンコーダ専用 | TimesFM 継続事前学習 |
| 多変量化 | 時間軸・変量軸注意の交互スタック | Channel Independence(単変量) | プロトタイプルーティングで O(M²)→O(M·C) 線形化 | 単変量ベース |
| 推論方式 | **CPM によるシングルパス**(逐次 AR 廃止) | 出力パッチ > 入力パッチで逐次ステップ削減 | マスク再構成(エンコーダ) | 逐次 |
| 出力ヘッド | ピンボール損失(9 分位) | 点予測(MSE 系) | 点予測 | 点予測 |
| 事前学習データ | 観測メトリクス+合成データのみ(**公開データ排除**) | Wikipedia ページビュー + Google Trends + 合成 | 汎用+クラスタトレース | TimesFM 基盤 |
| スケール | 4M〜2.5B(5 サイズ family) | 200M 単一 | 59M〜591M | ≈400M |
| 総データ点数 | 5.04 兆点 | ≈100B 点 | 不明 | ≈300B 点 |
## Toto 2.0 に固有の技術革新
### Contiguous Patch Masking (CPM)
学習時に連続パッチを一括マスクし、シングルパス推論を実現。Toto 1.0 の逐次自己回帰デコードを廃止。313M モデルが Chronos-2(120M)と同等レイテンシを達成——パラメータが 2.6 倍あっても速い。TimesFM は「出力パッチ長 > 入力パッチ長」でステップを減らす別方式、[[Falcon-X]] のマスク再構成とも設計が異なる。
### u-μP ハイパーパラメータ転移
10M プロキシモデルでスイープし、ゼロショットで全 5 サイズへ転移。TSFM への μP 適用は初。スケーリング実験コストを「数日 × 5 サイズ」から「数時間 × 1 プロキシ」に削減。
### NorMuon オプティマイザ
ピンボール損失の勾配が符号値(`{-τ, 0, 1-τ}`)しかとらない問題に対し、Muon に per-neuron EMA スケール正規化を加えて解決。AdamW のステップサイズ機構への依存を排除。
### arcsinh 入力正規化
観測メトリクスの数桁スパンを扱うために `asinh((x-μ)/σ)` を採用。`|z|≪1` で恒等、`|z|≫1` で対数圧縮。符号情報を保持しながら外れ値を抑制。
## 観測ドメイン特化 TSFM との詳細比較
| | **Toto 2.0** | **Cisco TSM** | **Falcon-X** |
|---|---|---|---|
| 着眼 | 分布・裾の重さ | 長コンテキスト・多解像度 | 異種多変量の変量間 |
| 事前学習の新規性 | 公開データ完全排除、合成データ 57.5% | TimesFM に特殊トークン+解像度埋め込みを追加して継続事前学習 | 潜在プロトタイプ空間でゼロショット |
| スケーリング | 単調・飽和なし(初実証) | 単一規模(≈400M) | 59M〜591M でスケーリング則 |
| 多変量 | 変量軸アテンション(最大 32 変量) | 単変量ベース | O(M·C) 線形変量間注意が核心 |
## ベンチマーク結果
| ベンチマーク | 結果 |
|---|---|
| BOOM | 全 5 サイズが競合モデルを全指標で上回り、パレートフロンティア上に位置 |
| GIFT-Eval(ゼロショット) | 上位 3 位を 2.5B・1B・313M が独占 |
| GIFT-Eval(FT) | アンサンブル「Family and Friends」が 1 位、2.5B FT が 2 位 |
| TIME(汚染耐性) | 全指標で上位 3 位を独占 |
## 未解決の問い
- **Falcon-X との多変量対決**: Falcon-X が「TSFM はほぼ単変量」と批判し変量間モデリングを正面に据えるが、Toto 2.0 との同条件比較なし。
- **公開データ排除の一般化**: 事前学習に公開データを使わず GIFT-Eval で SOTA を達成したことはデータ汚染でないことを示すが、観測以外のドメインへの汎化は未検証。
- **古典的手法とのギャップ**: 外挿整合性・不確実性較正は依然未解決と著者自身が認めている。
## 出典
- [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]](arXiv 版、アーキテクチャ詳細・スケーリング実験)
- [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]](ブログ版)
- [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]](比較対象)
- [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]](TimesFM 原論文)
- [[@2025__arXiv__Cisco Time Series Model Technical Report]](Cisco TSM 比較)
- [[@2025__arXiv__Foundation Models for Time Series - A Survey]](6 次元タクソノミー)