NorMuon - yuuk1's Digital Garden

# NorMuon NorMuon(Normalized Muon)は Muon オプティマイザの改良版で、[[Toto]] 2.0 において採用された最適化手法。 ## 定義 Muon は Newton-Schulz 直交化(または Polar Express)で行列更新を正規化するオプティマイザだが、ピンボール損失(分位点損失)と組み合わせると符号値勾配(sign-valued gradient)問題が生じる。NorMuon はこの問題を解決するため、各行(ニューロン)の更新ベクトルを EMA(指数移動平均)ベースのスケールで行単位に正規化する。([[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) ## 更新則直交化後の行列を $O_t$ とするとき、NorMuon の更新則は以下のとおり(Eq. 5)。 $v_t = \beta_2 v_{t-1} + (1 - \beta_2) \cdot \text{mean\_cols}(O_t \odot O_t)$ $W_t \leftarrow W_{t-1} - \eta \, O_t / \sqrt{v_t + \epsilon}$ ここで $v_t$ は列方向の平均二乗を EMA したもので、行単位(per-neuron)のスケールバランスを担う。$\beta_2$・$\eta$・$\epsilon$ はそれぞれ EMA 係数・学習率・数値安定化項。 ## 採用背景 Toto 2.0 は定量的出力ヘッド(分位点損失を伴うピンボール損失)を採用しており、符号値勾配が学習を不安定化させる問題が生じた。NorMuon はこれを per-neuron の EMA スケール正規化で安定化し、スケーリング則の確認実験を含む全学習で一貫して使用された。 ## 関連 - 採用モデル: [[Toto]](Toto 2.0) - 開発元: [[Datadog]] AI Research - 関連最適化手法: Muon / AdamW ## 出典 - [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]](Eq. 5、学習安定化の詳細)