深層学習の汎化 - yuuk1's Digital Garden

# 深層学習の汎化 Navigation: [[index]] | [[_index|concepts]] ## 定義深層学習の汎化とは、パラメータ数 $d$ がサンプル数 $n$ を大幅に超える**過パラメータ化**(overparameterization)された深層ニューラルネットワークが、古典的な統計的学習理論の予測に反して良好なテスト性能を示す現象、およびその理論的説明の総称である。古典的な汎化誤差バウンドが $d > n$ で自明(バウンド $\ge 1$)になるにもかかわらず、実際の深層学習モデルは高い汎化能力を示すことが知られており、これは現代の機械学習理論における主要な未解決問題のひとつである。(Source: [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]]) ## 古典的理論の崩壊カバリングナンバーを用いたバウンドでは、パラメータ次元 $d$ が大きくなるにつれ: $|\hat{R}_n(\Theta^*) - R(\Theta^*)| \le 2\sqrt{\frac{d\log(\cdots)}{2n}}$ 右辺が $d > n$ の場合に 1 を超え、意味のある上界を与えない。深層学習では $d$ が数百万から数百億、$n$ が数百万件のオーダーとなり、$d \gg n$ の状況が一般的である。(Source: [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]]) ## 損失地形の構造(盆地仮説) 深層ニューラルネットワークの損失地形(loss landscape)は大きく**広大な盆地**(flat minima)と**先鋭な谷**(sharp minima)からなると考えられている。(Source: [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]]) ### 確率的勾配降下法による盆地への収束 - 確率的勾配降下法(SGD)は先鋭な谷からは「飛び出して」、広大な盆地に収束する - よく訓練されたモデルは量子化・精度削減後でも機能する → パラメータがある程度ブレても損失は低い → 広大な盆地にいる証拠 ### 盆地の個数仮説 - **モデルマージ説**: 本質的な盆地は 1 個しかない(異なる訓練で得たパラメータの単純平均がうまくいく理由) - **定数個説**: 本質的に有効な推論方法は定数 $K$ 個しかなく、訓練後に辿り着きうる盆地も $K$ 個盆地の個数が定数 $K$ で、標本によらず毎回この $K$ 個のいずれかに収束すると仮定できれば: $\text{確率} \quad 1 - 2K\exp(-2nt^2) \quad \text{で誤差} \quad \sqrt{\frac{\log(200K)}{2n}} + (\text{盆地内変動})$ このバウンドは**パラメータ次元 $d$ に依存しない**。(Source: [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]]) ## 未解決部分以下はいずれも現在未解明または議論中: - 本質的な盆地の個数が定数であることの厳密な証明とその成立条件 - 盆地内での損失変動の定量化 - どのような仮定のもとで上記バウンドが厳密に成立するか ## 関連する研究方向 - **二重降下**(double descent): サンプル数やモデルサイズを増やしてパラメータ補間臨界点を超えると再びテスト誤差が下がる現象。過パラメータ化の有益性を示すもう一つの観察。 - **暗黙正則化**: SGD が明示的な正則化なしにモデルを「単純な解」に誘導するという仮説。 - **PAC-Bayes**: 事後分布のランダム予測器に対して汎化バウンドを与える枠組み。過パラメータ化でも有効なバウンドを目指す。 - **均一安定性**(uniform stability): アルゴリズムの安定性から汎化を保証する手法。 ## 横断的知見 - 佐藤 2025 の論理展開は「なぜ深層学習の理論が難しいか」を最短経路で説明している: 古典的バウンドは $d$ に比例して悪化するため、$d \gg n$ の深層学習では破綻し、代替アプローチとして損失地形の幾何学的構造への着目が必要になる。(Source: [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]]) ## 未解決の問い - 損失地形の盆地の個数が定数であると仮定できる条件は何か。 - SGD のノイズがどの程度、先鋭な谷を避けて盆地に収束させるメカニズムを担っているか。 - 二重降下現象と盆地仮説はどのように関連するか。 ## 関連 - [[汎化誤差バウンド]] — 古典的バウンドが崩壊する文脈 - [[カバリングナンバー]] — $d$ 依存性が問題になる理由 - [[PAC学習]] — 汎化を定量化する枠組みとその限界 - [[佐藤竜馬]] — 著者(『深層ニューラルネットワークの高速化』でも関連する理論を解説) ## 出典 - [[joisino-機械学習理論入門-2025|@2025__joisino__絶対に分かる機械学習理論]] — 佐藤竜馬、2025-03-17