Toto-2アーキテクチャ比較-他TSFMとの特徴

# Toto 2.0 のアーキテクチャ：他の TSFM との特徴比較 Navigation: [[index]] | [[questions/_index]] ## 位置づけ Toto 2.0（arXiv:2605.20119）は**観測ドメイン特化の TSFM でスケーリング則を初確立**した。「TSFM の BERT モーメント」（Toto 1.0 と同時代）から「TSFM の GPT-2 モーメント」への移行を宣言。4M〜2.5B の 5 サイズで BOOM CRPS が 7.17→3.88 と単調改善し飽和なし。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) ## アーキテクチャ比較表 | 軸 | **Toto 2.0** | TimesFM(Google) | Falcon-X(Ant) | Cisco TSM | |---|---|---|---|---| | デコーダ構造 | デコーダ専用パッチ Transformer | デコーダ専用パッチ Transformer | エンコーダ専用 | TimesFM 継続事前学習 | | 多変量化 | 時間軸・変量軸注意の交互スタック | Channel Independence(単変量) | プロトタイプルーティングで O(M²)→O(M·C) 線形化 | 単変量ベース | | 推論方式 | **CPM によるシングルパス**(逐次 AR 廃止) | 出力パッチ > 入力パッチで逐次ステップ削減 | マスク再構成(エンコーダ) | 逐次 | | 出力ヘッド | ピンボール損失(9 分位) | 点予測(MSE 系) | 点予測 | 点予測 | | 事前学習データ | 観測メトリクス+合成データのみ(**公開データ排除**) | Wikipedia ページビュー + Google Trends + 合成 | 汎用+クラスタトレース | TimesFM 基盤 | | スケール | 4M〜2.5B(5 サイズ family) | 200M 単一 | 59M〜591M | ≈400M | | 総データ点数 | 5.04 兆点 | ≈100B 点 | 不明 | ≈300B 点 | ## Toto 2.0 に固有の技術革新 ### Contiguous Patch Masking (CPM) 学習時に連続パッチを一括マスクし、シングルパス推論を実現。Toto 1.0 の逐次自己回帰デコードを廃止。313M モデルが Chronos-2（120M）と同等レイテンシを達成——パラメータが 2.6 倍あっても速い。TimesFM は「出力パッチ長 > 入力パッチ長」でステップを減らす別方式、[[Falcon-X]] のマスク再構成とも設計が異なる。 ### u-μP ハイパーパラメータ転移 10M プロキシモデルでスイープし、ゼロショットで全 5 サイズへ転移。TSFM への μP 適用は初。スケーリング実験コストを「数日 × 5 サイズ」から「数時間 × 1 プロキシ」に削減。 ### NorMuon オプティマイザピンボール損失の勾配が符号値（`{-τ, 0, 1-τ}`）しかとらない問題に対し、Muon に per-neuron EMA スケール正規化を加えて解決。AdamW のステップサイズ機構への依存を排除。 ### arcsinh 入力正規化観測メトリクスの数桁スパンを扱うために `asinh((x-μ)/σ)` を採用。`|z|≪1` で恒等、`|z|≫1` で対数圧縮。符号情報を保持しながら外れ値を抑制。 ## 観測ドメイン特化 TSFM との詳細比較 | | **Toto 2.0** | **Cisco TSM** | **Falcon-X** | |---|---|---|---| | 着眼 | 分布・裾の重さ | 長コンテキスト・多解像度 | 異種多変量の変量間 | | 事前学習の新規性 | 公開データ完全排除、合成データ 57.5% | TimesFM に特殊トークン+解像度埋め込みを追加して継続事前学習 | 潜在プロトタイプ空間でゼロショット | | スケーリング | 単調・飽和なし(初実証) | 単一規模(≈400M) | 59M〜591M でスケーリング則 | | 多変量 | 変量軸アテンション(最大 32 変量) | 単変量ベース | O(M·C) 線形変量間注意が核心 | ## ベンチマーク結果 | ベンチマーク | 結果 | |---|---| | BOOM | 全 5 サイズが競合モデルを全指標で上回り、パレートフロンティア上に位置 | | GIFT-Eval(ゼロショット) | 上位 3 位を 2.5B・1B・313M が独占 | | GIFT-Eval(FT) | アンサンブル「Family and Friends」が 1 位、2.5B FT が 2 位 | | TIME(汚染耐性) | 全指標で上位 3 位を独占 | ## 未解決の問い - **Falcon-X との多変量対決**: Falcon-X が「TSFM はほぼ単変量」と批判し変量間モデリングを正面に据えるが、Toto 2.0 との同条件比較なし。 - **公開データ排除の一般化**: 事前学習に公開データを使わず GIFT-Eval で SOTA を達成したことはデータ汚染でないことを示すが、観測以外のドメインへの汎化は未検証。 - **古典的手法とのギャップ**: 外挿整合性・不確実性較正は依然未解決と著者自身が認めている。 ## 出典 - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]（arXiv 版、アーキテクチャ詳細・スケーリング実験） - [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]（ブログ版） - [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]]（比較対象） - [[@2024__arXiv__A Decoder-Only Foundation Model for Time-Series Forecasting]]（TimesFM 原論文） - [[@2025__arXiv__Cisco Time Series Model Technical Report]]（Cisco TSM 比較） - [[@2025__arXiv__Foundation Models for Time Series - A Survey]]（6 次元タクソノミー）