# u-μP ## 定義 u-μP(Unit Scaling with Maximal Update Parametrization)は、**小規模プロキシモデルでチューニングしたハイパーパラメータをそのまま大規模モデルへ転移できる**ハイパーパラメータ転移技術。スケーリング実験において、モデルサイズごとに再チューニングを行うコストを排除する。元の **μP**(Maximal Update Parametrization、Greg Yang ら)を Unit Scaling の観点から拡張したもの。 ## 背景・動機 スケーリング実験で最大の障壁のひとつは、モデルサイズが変わるとハイパーパラメータ(学習率・初期化スケール等)が変化し、大規模モデルで再チューニングが必要になるコスト。μP は各レイヤーの更新量がモデル幅によらず一定になるようにパラメータ化し、「小→大」の転移を可能にする。u-μP はこれを Unit Scaling(アクティベーションを O(1) に保つ初期化スキーム)と統合して数値安定性を高めたバリアント。 ## Toto 2.0 での活用 [[Toto]] 2.0(4M〜2.5B の 5 サイズ family)の学習に採用。[[Datadog]] は `dd_unit_scaling` ライブラリ(PyTorch compile・FSDP2・DDP 対応、Apache 2.0)として実装を公開。([[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]) ## 関連 - エンティティ: [[Toto]] / [[Datadog]] - ソース: [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]] - 概念: [[スケーリング則]] ## 出典 - [[@2026__Datadog__Toto-2.0-Time-Series-Forecasting-Enters-the-Scaling-Era]]