暗黙的正則化 - yuuk1's Digital Garden

# 暗黙的正則化 ## 定義暗黙的正則化(implicit regularization)とは、正則化関数や重み減衰などの技法を用いて明示的な正則化を施さなくても、訓練アルゴリズムの特性により自動的に単純なパラメータが得られることである。「暗黙的バイアス(implicit bias)」とも呼ばれる。(Source: [[joisino-アンナカレーニナの法則-2025]]) ## メカニズム直観的には、訓練アルゴリズム(勾配降下法)は単純な仮説から順番に探索を行い、損失が下がらなくなった時点で停止する。 1. **初期化**: 小さいノルムから出発する 2. **探索**: ノルム(複雑さ)が徐々に増えながら損失が低下 3. **停止**: 最初に出会った「良い解」(十分に損失が低い解)で停止この結果、**データに適合する仮説のうち最も単純なもの**が選ばれる傾向がある。 ``` ノルムが小さい → 表現できる関数が限られる → 単純な解ノルムが大きい → 複雑な関数を表現できる → 複雑な解の可能性 ``` ただし「ノルムが小さいならば単純な手続きを表す」は保証されるが、「ノルムが大きいならば複雑な手続きを表す」は必ずしも保証されない。 ## 理論的根拠ノルム以外にも、様々な指標で同様の現象が確認・証明されている。 | 指標 | 論文 | |---|---| | パラメータのランク | Arora et al., NeurIPS 2019 (arXiv: 1905.13655) | | ロスランドスケープの平坦性 | Cohen et al., ICLR 2021 (arXiv: 2103.00065) | | 決定境界マージンの広さ | Soudry et al., JMLR 2018 (arXiv: 1710.10345) | (Source: [[joisino-アンナカレーニナの法則-2025]]) ## モデル表現収束への寄与暗黙的正則化は[[モデル表現収束]]の主要因の一つである。 - 異なるランダムシードから出発して独立に訓練しても、どちらも単純な解へ収束する - 「1 + 1 = 2」を計算するとき、理論上は「1 + 3459749762 - 3459749762 + 1 = 2」という回り道も可能だが、訓練で自然に得られる手続きは「1 + 1 = 2」という直接的なものである - この性質により、異なるモデルが似た大域的構造を持つ表現に自然と収束する ## 暗黙的カリキュラムとの関係暗黙的正則化と密接に関連する現象として**暗黙的カリキュラム**(implicit curricula)がある(Wu et al., ICLR 2021, arXiv: 2012.03107)。明示的なカリキュラムを行わず、ランダムな順序で訓練例を示しても、モデルは自然と簡単な例から順番に学習していく。 - 「例の難しさ」が複数のアーキテクチャ(FC, VGG11, VGG16, ResNet18, ResNet50 等)にわたって一貫して共有されている - 訓練の早い段階で大域的な単純構造が獲得され、後の段階で局所的な複雑構造が付け加わる - **LLM の 1 エポック訓練では**: 難しいデータを訓練初期に示しても学習できず機会を失う → カリキュラムの明示的設計が重要 - **多エポック訓練では**: 後のエポックで自然に補完されるためカリキュラムの意義が薄い ## 横断的知見 - **暗黙的な単純解選好が存在しても、明示的正則化が不要になるとは限らない**: 暗黙的正則化は最適化過程が単純な解を選ぶ傾向を説明する。一方、Penn TreebankのLSTMでは正則化なしでモデルを大きくすると過学習し、規模と訓練期間を制約せざるを得なかった。非再帰結合への[[ドロップアウト]]は、大規模モデルを長く訓練しながらテストパープレキシティを改善した。暗黙的バイアスと明示的な確率的制約は代替物ではなく、条件に応じて補完しうる。(Source: [[joisino-アンナカレーニナの法則-2025]], [[@2026__30papers__Recurrent Neural Network Regularization]]) - [[スケーリング則]]における「アーキテクチャ独立性」(depth/width 比等の詳細設計の影響が小さく、パラメータ総数が支配的)とは方向性が異なる観察だが、両者は「大規模訓練での普遍的傾向」という点で関連する。 ## 未解決の問い - 暗黙的正則化が働く条件は何か。過学習が起きる領域では成立しないか。 - 暗黙的カリキュラムはどのモデル規模・データ規模から顕著になるか。極めて弱いモデルでは傾向が乱れることが示されているが(Wu et al., 2021)、より大規模なモデルではどうか。 - 暗黙的正則化の強さとモデル表現収束の速さには定量的な対応関係があるか。 - モデル規模、データ量、訓練期間から、暗黙的正則化だけで十分な条件と、ドロップアウトのような明示的正則化が必要な条件を予測できるか。 ## 関連 - 概念: [[モデル表現収束]] / [[プラトン的表現仮説]] / [[スケーリング則]] / [[統計的機械学習]] / [[言語モデル事前学習]] / [[ドロップアウト]] - ソース: [[joisino-アンナカレーニナの法則-2025]] / [[@2026__30papers__Recurrent Neural Network Regularization]] - エンティティ: [[佐藤竜馬]] ## 出典 - [[joisino-アンナカレーニナの法則-2025]](佐藤竜馬、2025-05-20) - [[@2026__30papers__Recurrent Neural Network Regularization]](Wojciech Zaremba、Ilya Sutskever、Oriol Vinyals、2014) - Arora et al., NeurIPS 2019 (arXiv: 1905.13655) — ランクの暗黙的正則化 - Cohen et al., ICLR 2021 (arXiv: 2103.00065) — 平坦性の暗黙的正則化 - Soudry et al., JMLR 2018 (arXiv: 1710.10345) — マージンの暗黙的正則化 - Wu et al., ICLR 2021 (arXiv: 2012.03107) — 暗黙的カリキュラム