# スケーリング則 ## 定義 スケーリング則(Scaling Laws)とは、ニューラル言語モデルの性能がモデルパラメータ数 $N$、データセット量 $D$、訓練計算量 $C$ の増加に対して**べき乗則**(power-law)に従って予測可能に改善するという経験的法則である。Kaplan et al. (2020) がクロスエントロピー損失 $L$ について $L(X) \propto X^{-\alpha}$ という形式でこの関係を実証した。 $L(N) \propto N^{-0.076}, \quad L(D) \propto D^{-0.095}, \quad L(C_{\min}) \propto C_{\min}^{-0.050}$ この法則は 7 桁以上のスケール範囲にわたって成立し、アーキテクチャの詳細(depth/width 比、注意ヘッド数)にはほぼ依存しない。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 背景と提案 [[Jared Kaplan]]・Sam McCandlish ほか [[OpenAI]] が 2020 年に発表した論文 [[@2020__arXiv__Scaling Laws for Neural Language Models]] が起点。768 パラメータから 15 億パラメータまでの decoder-only Transformer を WebText2 データセットで訓練し、各スケール変数ごとのべき乗則指数を実測した。 計算バジェット $C_{\min}$ を固定したとき、最適なリソース配分は次式で与えられる。 $N_{\text{opt}} \propto C_{\min}^{0.73}, \quad D_{\text{opt}} \propto C_{\min}^{0.27}$ これは「計算の増加分のほとんどをモデルサイズの拡大に充てるべき」を意味し、訓練ステップ数の増加は $S_{\min} \propto C_{\min}^{0.03}$ とほぼ不要である。大きなモデルを早期停止で訓練する戦略がこの直接的な帰結。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 主要な発見の要約 | 発見 | 内容 | |---|---| | べき乗則の普遍性 | $N$、$D$、$C$ の各軸で独立にべき乗則が成立、7 桁以上 | | アーキテクチャ独立性 | 深さ・幅・ヘッド数には弱依存(loss 差は数%) | | 過学習の普遍性 | ペナルティは $N^{0.74}/D$ に依存。モデル 8 倍ならデータ 5 倍で回避 | | 訓練カーブの普遍性 | パラメータ数によらず同形の訓練曲線(初期から収束を外挿可能) | | 最適配分 | $N_{\text{opt}} \propto C^{0.73}$、大きいモデルを早期停止が最適 | | サンプル効率 | 大きいモデルほどサンプル効率が高い(同損失に必要なデータが少ない) | (Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 横断的知見 - **Kaplan vs. Chinchilla のモデル/データ配分論争**: Kaplan et al. (2020) は $N_{\text{opt}} \propto C^{0.73}$ とモデル偏重を主張したが、Hoffmann et al. (2022, Chinchilla) は $N_{\text{opt}} \propto C^{0.49}$、$D_{\text{opt}} \propto C^{0.51}$ と均等配分を主張して不一致が生じた。DeepSeek LLM (2024) はデータ品質の違いが配分の違いを部分的に説明すると分析し、本 wiki の [[LLMスケーリング則]] ページで横断的に追跡されている。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]], [[LLMスケーリング則]]) - **アーキテクチャ独立性がモデル設計の優先順位を変えた**: depth/width 比やアテンションヘッド数のような詳細なアーキテクチャ選択は損失差が数%にとどまるのに対し、総パラメータ数の増加は滑らかな改善をもたらす。これは「アーキテクチャ最適化より規模優先」という設計指針の根拠となり、GPT-3 以降の大規模言語モデル開発の方向性を決定づけた。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) - **訓練損失と下流タスク性能の橋渡し**: 本論文はクロスエントロピー損失のスケーリングを実証したが、下流タスク性能もモデル規模に対してほぼ単調に改善する(他の分布でも損失は同様の冪指数でスケール)。GPT-3 ([[@2020__NeurIPS__Language Models are Few-Shot Learners]])で文脈内学習性能がモデル規模に対して滑らかにスケールすることが確認され、損失スケーリングと能力スケーリングの一貫性を支持する。ただし定量的な対応関係は引き続き未解明な部分が多い。 - **フロンティアでのスケーリング失敗事例**: 2023 年の GPT-4 でスケーリング則が実証された後、[[Microsoft]] の超大規模クラスタで訓練されたモデルがトークン単価 GPT-4o 比 15 倍・推論に 120 GPU 必要で経済破綻し、2025-04 に非推奨化されたという観察がある([[Glenn K. Lockwood]] による外部ブログ記事、信頼度 medium)。これは「フロンティア以前の経験則がフロンティアでも成立するか」という問いを提起する。(Source: [[LLMスケーリング則]]) ## 未解決の問い - Kaplan (2020) の最適配分 $N \propto C^{0.73}$ と Chinchilla (2022) の均等配分の不一致は、訓練設定の違い(バッチサイズ、最適化手法、データ品質)のどれが最も支配的な原因か。 - べき乗則はどの規模まで成立するか。本論文が推計する「矛盾点」($N^* \approx 10^{12}$ パラメータ、$C^* \approx 10^4$ PF-days)付近でどのように変化するか。 - 画像・音声・動画など他の生成モデルドメインでもアーキテクチャ独立性とべき乗則指数は同程度に成立するか。 - スケーリング則は損失(クロスエントロピー)のスケーリングを記述するが、「有用な能力」(推論、コーディング、数学)が損失のどのスケールで創発するかは依然として予測不可能。新しい評価枠組みが必要か。 - RL・後訓練・推論時計算(テスト時スケーリング)は訓練時スケーリングの代替か補完か。フロンティアでの証拠(Chinchilla-optimal モデルへのRL適用で性能が大きく向上した DeepSeek-R1 など)をどう整合させるか。 ## 関連 - ソース: [[@2020__arXiv__Scaling Laws for Neural Language Models]] - エンティティ: [[Jared Kaplan]] / [[OpenAI]] - 概念: [[LLMスケーリング則]] / [[言語モデル事前学習]] / [[文脈内学習]] / [[テスト時計算スケーリング]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2020__arXiv__Scaling Laws for Neural Language Models]](§1.1 Summary of Findings, §1.2 Summary of Scaling Laws, §3 Empirical Results, §5 Scaling Laws with Model Size and Training Time, §6 Optimal Allocation of the Compute Budget, Appendix A-B)