# Toto 2.0 と Toto 1.0 の差分
## モデルサイズ
| | Toto 1.0 | Toto 2.0 |
|---|---|---|
| パラメータ | 151M(単一サイズ) | 4M / 22M / 313M / 1B / 2.5B の 5 サイズ family |
## 推論方式:最大の変更点
**1.0** は逐次自己回帰デコーディングを採用。予測ホライズン分だけデコードを繰り返すため、長期予測になるほど低速だった。
**2.0** は [[Contiguous Patch Masking]](CPM)を採用。学習時に連続パッチを一括マスクし、推論時はシングルパスで完結する。予測ホライズンに関係なく計算回数が変わらない。313M サイズが [[Chronos-2]](120M)と同等レイテンシを達成。
平易なイメージ:
- 1.0: 「次の 1 分→その次の 1 分→さらに次の…」と 1 ステップずつ逐次計算
- 2.0: 「30 分先まで一括で計算」
## 確率的出力ヘッド
| | 手法 | 特徴 |
|---|---|---|
| 1.0 | Student-T mixture head + composite robust loss | 分布の形(山型)を仮定して不確実性を表現 |
| 2.0 | ピンボール損失(分位点損失) | 分布の形を仮定せず各分位点を直接学習 |
観測メトリクスは裾が重かったりスパイクが混ざったりするため、分布を決め打ちしない 2.0 の方式が現実に合いやすい。詳細は [[分位点損失と区間予測]] を参照。
## オプティマイザ
- **1.0**: 標準的な最適化手法
- **2.0**: **[[NorMuon]]** — Muon の改良版。ピンボール損失との組み合わせで発生する符号値勾配問題を per-neuron の EMA スケール正規化で解決。全学習で一貫して採用。
## スケーリング戦略
- **1.0**: スケーリング則の検証なし
- **2.0**: **[[u-μP]]** でプロキシモデルのハイパーパラメータを大規模モデルへ転移。実験コストを大幅削減。`dd_unit_scaling`(Apache 2.0)として公開。4M→2.5B で BOOM CRPS が 7.17→3.88 と単調改善・飽和なし。22M が Toto 1.0(151M)の 7 分の 1 パラメータで同等性能——観測特化 TSFM で初の本格スケーリング則実証。
## 直交化
- **1.0**: 記載なし
- **2.0**: **Polar Express 直交化**を Newton-Schulz 直交化の代替として採用可能(NorMuon の構成要素)。
## ベンチマーク結果(2.0)
| ベンチマーク | 結果 |
|---|---|
| [[BOOM]] | 全 5 サイズが競合上回り全サイズがパレートフロンティア |
| [[GIFT-Eval]](ゼロショット) | 上位 3 位を 2.5B・1B・313M が独占 |
| [[GIFT-Eval]](FT) | アンサンブル「Family and Friends」が 1 位、2.5B FT が 2 位 |
| TIME(汚染耐性) | 全指標で上位 3 位を独占 |
## 一言まとめ
Toto 1.0 は「1 種類・ステップ逐次・サイズ固定」だったが、2.0 は「5 サイズ選択肢・一括予測で高速・スケーリング則の実証」へと、速さ・サイズ・効率の三軸で刷新された。