# Toto 2.0: Time Series Forecasting Enters the Scaling Era Navigation: [[index]] | [[sources/_index]] | [[hot]] ## 概要 [[Datadog]] AI Research の技術ブログ(著者: [[Emaad Khwaja]]・[[Gerald Woo]]・[[Chris Lettieri]]・[[Ameet Talwalkar]]・[[David Asker]])。[[Toto]] の第 2 世代「Toto 2.0」を発表し、4M〜2.5B パラメータの 5 サイズ family としてスケーリング則の実証と、2 つの主要な技術革新([[Contiguous Patch Masking|CPM]] と [[u-μP]])を紹介する。本 wiki では [[時系列基盤モデル]] の**スケーリング時代への移行**を示す一次情報として位置づける。対応 arXiv は 2605.20119。 ## モデルファミリー | サイズ | BOOM CRPS | |--------|-----------| | 4M | 7.17 | | 22M | 5.52 | | 313M | 4.25 | | 1B | 3.96 | | 2.5B | 3.88 | - 学習コンテキスト: 4,096 ステップ - 学習データ: Datadog 観測メトリクス + 合成データ(公開予測データセット不使用) - アーキテクチャ: デコーダ専用トランスフォーマ + パッチベース ## 主要技術革新 ### Contiguous Patch Masking (CPM) 学習時に連続したパッチを一括マスクすることで、推論時に逐次生成(自己回帰デコーディング)ではなくシングルフォワードパスで将来パッチを予測できる。レイテンシの大幅削減と品質向上を同時に達成。313M 変種は [[Chronos-2]](120M)と同等のレイテンシで動作。→ [[Contiguous Patch Masking]] ### u-μP ハイパーパラメータ転移 小規模プロキシモデルでチューニングしたハイパーパラメータを大規模モデルへそのまま転移する [[u-μP]] 技術を採用。モデルサイズごとの再チューニングを不要にし、スケーリング実験コストを削減。実装ライブラリ `dd_unit_scaling`(PyTorch compile・FSDP2・DDP 対応)を Apache 2.0 で公開。→ [[u-μP]] ## ベンチマーク結果 ### BOOM(観測メトリクス特化) 全 5 サイズが競合基盤モデルを上回り、全サイズがパレートフロンティア上に位置する。 ### GIFT-Eval(汎用、97 データセット) - ゼロショット部門: 上位 3 位を Toto 2.0 の最大 3 サイズが独占 - ファインチューニング部門: 「Toto 2.0 Family and Friends」アンサンブルが 1 位、2.5B ファインチューニング単体が 2 位 - メタ学習器分析: Toto family がアンサンブル予測の平均 39% を担う ### TIME(ゼロショット、汚染耐性) 全指標で上位 3 位を Toto 2.0 が独占。TIME は公開データセットへの汚染を防ぐ設計で、「公開データ不使用」の強みが直接評価される。 ## スケーリング特性 - パラメータ数増加に対して単調な性能改善(2.5B でも飽和なし) - 22M が Toto 1.0(151M)の 7 分の 1 のパラメータで同等性能——パラメータ効率の大幅改善 - 2,048〜8,192 ステップの多スケール合成信号テストで、大規模モデルほど長期パターンを維持(2.5B は 8,192 ステップで構造を保持) ## 将来研究の方向性 著者が指摘する 4 つの未解決課題: 1. **古典的手法とのギャップ**: 外挿の整合性・不確実性の校正で統計的手法が依然優位 2. **データキュレーション**: 現行アプローチはアドホック——体系的キュレーション戦略が性能を押し上げる可能性 3. **メトリクスを独自モダリティとして**: Datadog メトリクスの固有特性に特化したモデリング 4. **マルチモーダル統合**: メトリクス・トレース・ログ・トポロジーなどの統合オブザーバビリティ ## 公開成果物 - 全 5 サイズのモデル重み(Hugging Face、Apache 2.0) - `dd_unit_scaling` ライブラリ(分散 u-μP 学習用) - 技術レポート arXiv:2605.20119 ## 関連 - エンティティ: [[Toto]] / [[Datadog]] / [[BOOM]] / [[GIFT-Eval]] / [[Chronos-2]] / [[Emaad Khwaja]] / [[Gerald Woo]] / [[Chris Lettieri]] / [[Ameet Talwalkar]] / [[David Asker]] - 概念: [[時系列基盤モデル]] / [[Contiguous Patch Masking]] / [[u-μP]] / [[スケーリング則]] - 関連 MOC: [[時系列基盤モデル - MOC]] / [[Telemetry - MOC]] ## 出典 - [[.raw/articles/toto-2-2026-06-15]](Datadog blog, 2026-06-15 取得) - 原文: https://www.datadoghq.com/blog/ai/toto-2/ - 技術レポート: arXiv:2605.20119