u-μP - yuuk1's Digital Garden

# u-μP ## 定義 u-μP(Unit Scaling with Maximal Update Parametrization)は、**小規模プロキシモデルでチューニングしたハイパーパラメータを大規模モデルへそのまま転移できる**ハイパーパラメータ転移技術。元の μP(Yang et al. 2021)を Unit Scaling(Blake et al. 2023)と統合したもの。隠れ重みを $W = A_W \cdot w$ と再パラメータ化し、$A_W \propto 1/\sqrt{\text{fan\_in}}$、更新スケール $C_W \propto \eta/\sqrt{\text{fan\_in}}$ とすることで、最適学習率 $\eta$ がモデル幅に依存しなくなる(Blake et al. 2025 Table 2 参照)。 ## 背景・動機スケーリング実験で最大の障壁のひとつは、モデルサイズが変わると最適学習率が 1 桁変化するという問題(Yang et al. 2021)。μP は各レイヤーの更新量がモデル幅によらず一定になるようにパラメータ化し、「小→大」の転移を可能にする。u-μP はこれを Unit Scaling(アクティベーションを $O(1)$ に保つ初期化スキーム)と統合して数値安定性を高めたバリアント。デコーダ専用モデルでの転移精度が特に改善されるとされる(Blake et al. 2025)。転移されるのは最適学習率・モメンタム係数・重み減衰など。重み減衰は u-μP で転移保証されないため別途検証が必要。 ## Toto 2.0 での活用 [[Toto]] 2.0(4M〜2.5B の 5 サイズ family)で初めて TSFM に適用(arXiv:2605.20119 が最初の適用例と主張)。([[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) **プロキシモデル**: 10M パラメータ($L=12, d_{\text{model}}=256, h=4$)。$d_{\text{model}}=256$ は Blake et al. (2025) が示す最適パラメータドリフトを防ぐ下限。各トライアルは 30,000 ステップ(数時間)。 **4 段階スイープ**: アーキテクチャ → データ混合 → オプティマイザ → デケイスケジュールの順に Optuna+TPE で最適化。17 次元以上の連続・カテゴリパラメータ空間を 4 段に分割して順次絞り込む。 **ゼロショット転移**: プロキシの最良設定を $d_{\text{model}}$・深さ・ヘッド数の変更のみで全 5 サイズに適用。再チューニング不要。 **dd_unit_scaling ライブラリ**: プロダクション規模での運用に向け、`torch.compile`・FSDP2・データ/テンソル並列・シーケンス長不変性の問題を解決した実装を Apache 2.0 で公開(https://github.com/DataDog/toto)。 ## 横断的知見 - **TSFM への初適用が単一スイープで 5 サイズへの完全転移を実現**: Toto 2.0 は u-μP を TSFM に初めて適用し、10M プロキシで発見した設定を 4M〜2.5B の全 5 サイズへ転移した。プロキシのスイープコストは数時間であり、5 サイズ独立チューニングと比較して数桁のコスト削減を達成。言語モデルでの有効性が実証されていた μP が時系列予測にも転移可能なことを初めて示した。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) - **プロダクション実装の障壁(DTensor・compile・分散並列)が先行研究にとって見えていなかった**: 標準 `unit_scaling` ライブラリは単一 GPU のイーガーモード設計のため、`torch.compile`、FSDP2(DTensor で μP メタデータが破壊)、DDP 勾配平均、KV キャッシュでのシーケンス長変化という産業規模固有の問題を解決する必要があった。dd_unit_scaling はこれらを全て解決しており、u-μP の産業展開への道を開く。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) ## 未解決の問い - 重み減衰の転移は u-μP では保証されないとされるが、Toto 2.0 のスイープでは実際どの程度転移できたか。重み減衰の転移精度に関する定量的評価が欲しい。 - TSFM 以外の確率的出力ヘッド(ピンボール損失・NLL・クロスエントロピー)を持つモデルで u-μP が有効に機能するか。ピンボール損失の符号値勾配は μP のスケール計算に影響するか。 - 時系列以外のドメイン(音声・画像の基盤モデル)でも同じプロキシサイズの下限($d_{\text{model}}=256$)が有効か。 ## 関連 - エンティティ: [[Toto]] / [[Datadog]] - ソース: [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] / [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] - 概念: [[スケーリング則]] / [[NorMuon]] ## 出典 - [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]