# Toto 2.0: Time Series Forecasting Enters the Scaling Era
Navigation: [[index]] | [[sources/_index]] | [[hot]]
## 概要
[[Datadog]] AI Research の技術ブログ(著者: [[Emaad Khwaja]]・[[Gerald Woo]]・[[Chris Lettieri]]・[[Ameet Talwalkar]]・[[David Asker]])。[[Toto]] の第 2 世代「Toto 2.0」を発表し、4M〜2.5B パラメータの 5 サイズ family としてスケーリング則の実証と、2 つの主要な技術革新([[Contiguous Patch Masking|CPM]] と [[u-μP]])を紹介する。本 wiki では [[時系列基盤モデル]] の**スケーリング時代への移行**を示す一次情報として位置づける。対応 arXiv は 2605.20119。
## モデルファミリー
| サイズ | BOOM CRPS |
|--------|-----------|
| 4M | 7.17 |
| 22M | 5.52 |
| 313M | 4.25 |
| 1B | 3.96 |
| 2.5B | 3.88 |
- 学習コンテキスト: 4,096 ステップ
- 学習データ: Datadog 観測メトリクス + 合成データ(公開予測データセット不使用)
- アーキテクチャ: デコーダ専用トランスフォーマ + パッチベース
## 主要技術革新
### Contiguous Patch Masking (CPM)
学習時に連続したパッチを一括マスクすることで、推論時に逐次生成(自己回帰デコーディング)ではなくシングルフォワードパスで将来パッチを予測できる。レイテンシの大幅削減と品質向上を同時に達成。313M 変種は [[Chronos-2]](120M)と同等のレイテンシで動作。→ [[Contiguous Patch Masking]]
### u-μP ハイパーパラメータ転移
小規模プロキシモデルでチューニングしたハイパーパラメータを大規模モデルへそのまま転移する [[u-μP]] 技術を採用。モデルサイズごとの再チューニングを不要にし、スケーリング実験コストを削減。実装ライブラリ `dd_unit_scaling`(PyTorch compile・FSDP2・DDP 対応)を Apache 2.0 で公開。→ [[u-μP]]
## ベンチマーク結果
### BOOM(観測メトリクス特化)
全 5 サイズが競合基盤モデルを上回り、全サイズがパレートフロンティア上に位置する。
### GIFT-Eval(汎用、97 データセット)
- ゼロショット部門: 上位 3 位を Toto 2.0 の最大 3 サイズが独占
- ファインチューニング部門: 「Toto 2.0 Family and Friends」アンサンブルが 1 位、2.5B ファインチューニング単体が 2 位
- メタ学習器分析: Toto family がアンサンブル予測の平均 39% を担う
### TIME(ゼロショット、汚染耐性)
全指標で上位 3 位を Toto 2.0 が独占。TIME は公開データセットへの汚染を防ぐ設計で、「公開データ不使用」の強みが直接評価される。
## スケーリング特性
- パラメータ数増加に対して単調な性能改善(2.5B でも飽和なし)
- 22M が Toto 1.0(151M)の 7 分の 1 のパラメータで同等性能——パラメータ効率の大幅改善
- 2,048〜8,192 ステップの多スケール合成信号テストで、大規模モデルほど長期パターンを維持(2.5B は 8,192 ステップで構造を保持)
## 将来研究の方向性
著者が指摘する 4 つの未解決課題:
1. **古典的手法とのギャップ**: 外挿の整合性・不確実性の校正で統計的手法が依然優位
2. **データキュレーション**: 現行アプローチはアドホック——体系的キュレーション戦略が性能を押し上げる可能性
3. **メトリクスを独自モダリティとして**: Datadog メトリクスの固有特性に特化したモデリング
4. **マルチモーダル統合**: メトリクス・トレース・ログ・トポロジーなどの統合オブザーバビリティ
## 公開成果物
- 全 5 サイズのモデル重み(Hugging Face、Apache 2.0)
- `dd_unit_scaling` ライブラリ(分散 u-μP 学習用)
- 技術レポート arXiv:2605.20119
## 関連
- エンティティ: [[Toto]] / [[Datadog]] / [[BOOM]] / [[GIFT-Eval]] / [[Chronos-2]] / [[Emaad Khwaja]] / [[Gerald Woo]] / [[Chris Lettieri]] / [[Ameet Talwalkar]] / [[David Asker]]
- 概念: [[時系列基盤モデル]] / [[Contiguous Patch Masking]] / [[u-μP]] / [[スケーリング則]]
- 関連 MOC: [[時系列基盤モデル - MOC]] / [[Telemetry - MOC]]
## 出典
- [[.raw/articles/toto-2-2026-06-15]](Datadog blog, 2026-06-15 取得)
- 原文: https://www.datadoghq.com/blog/ai/toto-2/
- 技術レポート: arXiv:2605.20119