# 暗黙的正則化 ## 定義 暗黙的正則化(implicit regularization)とは、正則化関数や重み減衰などの技法を用いて明示的な正則化を施さなくても、訓練アルゴリズムの特性により自動的に単純なパラメータが得られることである。「暗黙的バイアス(implicit bias)」とも呼ばれる。(Source: [[joisino-アンナカレーニナの法則-2025]]) ## メカニズム 直観的には、訓練アルゴリズム(勾配降下法)は単純な仮説から順番に探索を行い、損失が下がらなくなった時点で停止する。 1. **初期化**: 小さいノルムから出発する 2. **探索**: ノルム(複雑さ)が徐々に増えながら損失が低下 3. **停止**: 最初に出会った「良い解」(十分に損失が低い解)で停止 この結果、**データに適合する仮説のうち最も単純なもの**が選ばれる傾向がある。 ``` ノルムが小さい → 表現できる関数が限られる → 単純な解 ノルムが大きい → 複雑な関数を表現できる → 複雑な解の可能性 ``` ただし「ノルムが小さいならば単純な手続きを表す」は保証されるが、「ノルムが大きいならば複雑な手続きを表す」は必ずしも保証されない。 ## 理論的根拠 ノルム以外にも、様々な指標で同様の現象が確認・証明されている。 | 指標 | 論文 | |---|---| | パラメータのランク | Arora et al., NeurIPS 2019 (arXiv: 1905.13655) | | ロスランドスケープの平坦性 | Cohen et al., ICLR 2021 (arXiv: 2103.00065) | | 決定境界マージンの広さ | Soudry et al., JMLR 2018 (arXiv: 1710.10345) | (Source: [[joisino-アンナカレーニナの法則-2025]]) ## モデル表現収束への寄与 暗黙的正則化は[[モデル表現収束]]の主要因の一つである。 - 異なるランダムシードから出発して独立に訓練しても、どちらも単純な解へ収束する - 「1 + 1 = 2」を計算するとき、理論上は「1 + 3459749762 - 3459749762 + 1 = 2」という回り道も可能だが、訓練で自然に得られる手続きは「1 + 1 = 2」という直接的なものである - この性質により、異なるモデルが似た大域的構造を持つ表現に自然と収束する ## 暗黙的カリキュラムとの関係 暗黙的正則化と密接に関連する現象として**暗黙的カリキュラム**(implicit curricula)がある(Wu et al., ICLR 2021, arXiv: 2012.03107)。明示的なカリキュラムを行わず、ランダムな順序で訓練例を示しても、モデルは自然と簡単な例から順番に学習していく。 - 「例の難しさ」が複数のアーキテクチャ(FC, VGG11, VGG16, ResNet18, ResNet50 等)にわたって一貫して共有されている - 訓練の早い段階で大域的な単純構造が獲得され、後の段階で局所的な複雑構造が付け加わる - **LLM の 1 エポック訓練では**: 難しいデータを訓練初期に示しても学習できず機会を失う → カリキュラムの明示的設計が重要 - **多エポック訓練では**: 後のエポックで自然に補完されるためカリキュラムの意義が薄い ## 横断的知見 - 現時点では本 wiki にこの概念を直接扱うソースが [[joisino-アンナカレーニナの法則-2025]] 1本のみ。 - [[スケーリング則]]における「アーキテクチャ独立性」(depth/width 比等の詳細設計の影響が小さく、パラメータ総数が支配的)とは方向性が異なる観察だが、両者は「大規模訓練での普遍的傾向」という点で関連する。 ## 未解決の問い - 暗黙的正則化が働く条件は何か。過学習が起きる領域では成立しないか。 - 暗黙的カリキュラムはどのモデル規模・データ規模から顕著になるか。極めて弱いモデルでは傾向が乱れることが示されているが(Wu et al., 2021)、より大規模なモデルではどうか。 - 暗黙的正則化の強さとモデル表現収束の速さには定量的な対応関係があるか。 ## 関連 - 概念: [[モデル表現収束]] / [[プラトン的表現仮説]] / [[スケーリング則]] / [[統計的機械学習]] / [[言語モデル事前学習]] - ソース: [[joisino-アンナカレーニナの法則-2025]] - エンティティ: [[佐藤竜馬]] ## 出典 - [[joisino-アンナカレーニナの法則-2025]](佐藤竜馬、2025-05-20) - Arora et al., NeurIPS 2019 (arXiv: 1905.13655) — ランクの暗黙的正則化 - Cohen et al., ICLR 2021 (arXiv: 2103.00065) — 平坦性の暗黙的正則化 - Soudry et al., JMLR 2018 (arXiv: 1710.10345) — マージンの暗黙的正則化 - Wu et al., ICLR 2021 (arXiv: 2012.03107) — 暗黙的カリキュラム