# u-μP
## 定義
u-μP(Unit Scaling with Maximal Update Parametrization)は、**小規模プロキシモデルでチューニングしたハイパーパラメータをそのまま大規模モデルへ転移できる**ハイパーパラメータ転移技術。スケーリング実験において、モデルサイズごとに再チューニングを行うコストを排除する。元の **μP**(Maximal Update Parametrization、Greg Yang ら)を Unit Scaling の観点から拡張したもの。
## 背景・動機
スケーリング実験で最大の障壁のひとつは、モデルサイズが変わるとハイパーパラメータ(学習率・初期化スケール等)が変化し、大規模モデルで再チューニングが必要になるコスト。μP は各レイヤーの更新量がモデル幅によらず一定になるようにパラメータ化し、「小→大」の転移を可能にする。u-μP はこれを Unit Scaling(アクティベーションを O(1) に保つ初期化スキーム)と統合して数値安定性を高めたバリアント。
## Toto 2.0 での活用
[[Toto]] 2.0(4M〜2.5B の 5 サイズ family)の学習に採用。[[Datadog]] は `dd_unit_scaling` ライブラリ(PyTorch compile・FSDP2・DDP 対応、Apache 2.0)として実装を公開。([[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]])
## 関連
- エンティティ: [[Toto]] / [[Datadog]]
- ソース: [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]
- 概念: [[スケーリング則]]
## 出典
- [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]