Toto-2.0-vs-1.0-差分 - yuuk1's Digital Garden

# Toto 2.0 と Toto 1.0 の差分 ## モデルサイズ | | Toto 1.0 | Toto 2.0 | |---|---|---| | パラメータ | 151M(単一サイズ) | 4M / 22M / 313M / 1B / 2.5B の 5 サイズ family | ## 推論方式：最大の変更点 **1.0** は逐次自己回帰デコーディングを採用。予測ホライズン分だけデコードを繰り返すため、長期予測になるほど低速だった。 **2.0** は [[Contiguous Patch Masking]](CPM)を採用。学習時に連続パッチを一括マスクし、推論時はシングルパスで完結する。予測ホライズンに関係なく計算回数が変わらない。313M サイズが [[Chronos-2]](120M)と同等レイテンシを達成。平易なイメージ: - 1.0: 「次の 1 分→その次の 1 分→さらに次の…」と 1 ステップずつ逐次計算 - 2.0: 「30 分先まで一括で計算」 ## 確率的出力ヘッド | | 手法 | 特徴 | | --- | ---------------------------------------------- | -------------------- | | 1.0 | Student-T mixture head + composite robust loss | 分布の形(山型)を仮定して不確実性を表現 | | 2.0 | ピンボール損失(分位点損失) | 分布の形を仮定せず各分位点を直接学習 | 観測メトリクスは裾が重かったりスパイクが混ざったりするため、分布を決め打ちしない 2.0 の方式が現実に合いやすい。詳細は [[分位点損失と区間予測]] を参照。 ## オプティマイザ - **1.0**: 標準的な最適化手法 - **2.0**: **[[NorMuon]]** — Muon の改良版。ピンボール損失との組み合わせで発生する符号値勾配問題を per-neuron の EMA スケール正規化で解決。全学習で一貫して採用。 ## スケーリング戦略 - **1.0**: スケーリング則の検証なし - **2.0**: **[[u-μP]]** でプロキシモデルのハイパーパラメータを大規模モデルへ転移。実験コストを大幅削減。`dd_unit_scaling`(Apache 2.0)として公開。4M→2.5B で BOOM CRPS が 7.17→3.88 と単調改善・飽和なし。22M が Toto 1.0(151M)の 7 分の 1 パラメータで同等性能——観測特化 TSFM で初の本格スケーリング則実証。 ## 直交化 - **1.0**: 記載なし - **2.0**: **Polar Express 直交化**を Newton-Schulz 直交化の代替として採用可能(NorMuon の構成要素)。 ## ベンチマーク結果(2.0) | ベンチマーク | 結果 | |---|---| | [[BOOM]] | 全 5 サイズが競合上回り全サイズがパレートフロンティア | | [[GIFT-Eval]](ゼロショット) | 上位 3 位を 2.5B・1B・313M が独占 | | [[GIFT-Eval]](FT) | アンサンブル「Family and Friends」が 1 位、2.5B FT が 2 位 | | TIME(汚染耐性) | 全指標で上位 3 位を独占 | ## 一言まとめ Toto 1.0 は「1 種類・ステップ逐次・サイズ固定」だったが、2.0 は「5 サイズ選択肢・一括予測で高速・スケーリング則の実証」へと、速さ・サイズ・効率の三軸で刷新された。