スケーリング則 - yuuk1's Digital Garden

# スケーリング則 ## 定義スケーリング則（Scaling Laws）とは、ニューラル言語モデルの性能がモデルパラメータ数 $N$、データセット量 $D$、訓練計算量 $C$ の増加に対して**べき乗則**（power-law）に従って予測可能に改善するという経験的法則である。Kaplan et al. (2020) がクロスエントロピー損失 $L$ について $L(X) \propto X^{-\alpha}$ という形式でこの関係を実証した。 $L(N) \propto N^{-0.076}, \quad L(D) \propto D^{-0.095}, \quad L(C_{\min}) \propto C_{\min}^{-0.050}$ この法則は 7 桁以上のスケール範囲にわたって成立し、アーキテクチャの詳細（depth/width 比、注意ヘッド数）にはほぼ依存しない。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 背景と提案 [[Jared Kaplan]]・Sam McCandlish ほか [[OpenAI]] が 2020 年に発表した論文 [[@2020__arXiv__Scaling Laws for Neural Language Models]] が起点。768 パラメータから 15 億パラメータまでの decoder-only Transformer を WebText2 データセットで訓練し、各スケール変数ごとのべき乗則指数を実測した。計算バジェット $C_{\min}$ を固定したとき、最適なリソース配分は次式で与えられる。 $N_{\text{opt}} \propto C_{\min}^{0.73}, \quad D_{\text{opt}} \propto C_{\min}^{0.27}$ これは「計算の増加分のほとんどをモデルサイズの拡大に充てるべき」を意味し、訓練ステップ数の増加は $S_{\min} \propto C_{\min}^{0.03}$ とほぼ不要である。大きなモデルを早期停止で訓練する戦略がこの直接的な帰結。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 主要な発見の要約 | 発見 | 内容 | |---|---| | べき乗則の普遍性 | $N$、$D$、$C$ の各軸で独立にべき乗則が成立、7 桁以上 | | アーキテクチャ独立性 | 深さ・幅・ヘッド数には弱依存（loss 差は数%） | | 過学習の普遍性 | ペナルティは $N^{0.74}/D$ に依存。モデル 8 倍ならデータ 5 倍で回避 | | 訓練カーブの普遍性 | パラメータ数によらず同形の訓練曲線（初期から収束を外挿可能） | | 最適配分 | $N_{\text{opt}} \propto C^{0.73}$、大きいモデルを早期停止が最適 | | サンプル効率 | 大きいモデルほどサンプル効率が高い（同損失に必要なデータが少ない） | (Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) ## 横断的知見 - **TSFM で初めてスケーリング則が確立——Toto 2.0(2026)が「TSFM の GPT-2 モーメント」を宣言**: 言語モデルでは 2020 年に Kaplan et al. がべき乗則を示したが、TSFM ではモデルサイズを大きくしても一貫した改善が見られないことが長年の課題だった。[[Toto]] 2.0([[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]])は 4M〜2.5B の 5 サイズで単調かつ信頼できる性能改善を実証し、「単一のレシピを適用するだけで全サイズが前のサイズを上回る」ことを示した。著者らは Toto 1.0 とその同世代が TSFM の「BERT モーメント」なら Toto 2.0 は「GPT-2 モーメント」——スケーリングが研究課題でなくツールになった——と位置づける。ただし Toto 2.0 は BOOM/GIFT-Eval/TIME の CRPS rank で評価しており、冪指数の厳密な推定は行っていない。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) - **Kaplan vs. Chinchilla のモデル/データ配分論争**: Kaplan et al. (2020) は $N_{\text{opt}} \propto C^{0.73}$ とモデル偏重を主張したが、Hoffmann et al. (2022, Chinchilla) は $N_{\text{opt}} \propto C^{0.49}$、$D_{\text{opt}} \propto C^{0.51}$ と均等配分を主張して不一致が生じた。30papers掲載本文を再確認すると、Kaplan et al. 自身も計算量則とデータ量則が$C^*\approx10^4$ PF-days付近で矛盾し、指数に敏感な遠距離外挿はそれ以前に破綻すると明記している。Chinchillaの修正は、自然言語の不可避な損失下限だけでなく、訓練設定と適合方法が計算最適フロンティアを実測範囲内でも変え得ることを示す。DeepSeek LLM (2024) はデータ品質の違いが配分差を部分的に説明すると分析している。(Source: [[@2026__30papers__Scaling Laws for Neural Language Models]], [[@2022__arXiv__Training Compute-Optimal Large Language Models]], [[LLMスケーリング則]]) > [!contradiction] 計算最適なモデル・データ配分 > Kaplan et al. のモデル偏重配分$N_{\mathrm{opt}}\propto C^{0.73}$、$D_{\mathrm{opt}}\propto C^{0.27}$と、Chinchillaのほぼ均等な配分$N_{\mathrm{opt}}\propto C^{0.49}$、$D_{\mathrm{opt}}\propto C^{0.51}$は両立しない。本ページでは後者を黙って上書きせず、訓練レシピ、データ品質、適合方法に依存する経験的な不一致として保持する。(Source: [[@2026__30papers__Scaling Laws for Neural Language Models]], [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) - **Chinchilla が実証した「均等スケーリング」原則**: [[Jordan Hoffmann|Hoffmann et al. (2022)]] は 400 超のモデルを訓練する実験で、3 つの独立した方法論（訓練曲線エンベロープ・IsoFLOP プロファイル・パラメトリックフィット）がいずれも $a \approx b \approx 0.50$ という指数を支持することを示した。検証モデル Chinchilla (70B, 1.4T トークン) は同一計算量で訓練した Gopher (280B, 300B トークン) を MMLU・BIG-bench・読解・常識推論のすべてで上回り、「計算予算が固定されたとき、より小さいモデルをより多くのデータで訓練する方が優れた性能を達成できる」という命題を直接実証した。さらにモデルサイズが Gopher の 1/4 であることで推論コストと必要メモリも大幅に削減される実用上の優位性も確認された。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) - **アーキテクチャ独立性がモデル設計の優先順位を変えた**: depth/width 比やアテンションヘッド数のような詳細なアーキテクチャ選択は損失差が数%にとどまるのに対し、総パラメータ数の増加は滑らかな改善をもたらす。これは「アーキテクチャ最適化より規模優先」という設計指針の根拠となり、GPT-3 以降の大規模言語モデル開発の方向性を決定づけた。(Source: [[@2020__arXiv__Scaling Laws for Neural Language Models]]) - **訓練損失と下流タスク性能の橋渡し**: 本論文はクロスエントロピー損失のスケーリングを実証したが、下流タスク性能もモデル規模に対してほぼ単調に改善する（他の分布でも損失は同様の冪指数でスケール）。GPT-3 ([[@2020__NeurIPS__Language Models are Few-Shot Learners]])で文脈内学習性能がモデル規模に対して滑らかにスケールすることが確認され、損失スケーリングと能力スケーリングの一貫性を支持する。ただし定量的な対応関係は引き続き未解明な部分が多い。 - **フロンティアでのスケーリング失敗事例**: 2023 年の GPT-4 でスケーリング則が実証された後、[[Microsoft]] の超大規模クラスタで訓練されたモデルがトークン単価 GPT-4o 比 15 倍・推論に 120 GPU 必要で経済破綻し、2025-04 に非推奨化されたという観察がある（[[Glenn K. Lockwood]] による外部ブログ記事、信頼度 medium）。これは「フロンティア以前の経験則がフロンティアでも成立するか」という問いを提起する。(Source: [[LLMスケーリング則]]) ## 未解決の問い - TSFM のスケーリング則は言語モデルと同様の冪指数($\alpha \approx 0.07$)を示すか。Toto 2.0 は CRPS rank の単調改善を示したが、厳密な冪指数は未報告。時系列の「トークン」の性質(パッチ)が NLP と異なるため、同じ指数が成立するかは未検証。(Source: [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]]) - Toto 2.0 の 5 サイズで 2.5B まで飽和なしが示されたが、さらなるスケールアップでも単調改善が続くか。言語モデルのスケーリングと同様に、何らかの「壁」が現れるか。 - Kaplan (2020) の最適配分 $N \propto C^{0.73}$ と Chinchilla (2022) の均等配分の不一致は、訓練設定の違い（バッチサイズ、最適化手法、データ品質）のどれが最も支配的な原因か。 - 複数の訓練レシピで得た小規模な学習曲線だけから、指数の安定性と外挿破綻点を事前診断し、Kaplan型とChinchilla型のどちらの計算最適領域に入るかを判定できるか。 - べき乗則はどの規模まで成立するか。本論文が推計する「矛盾点」（$N^* \approx 10^{12}$ パラメータ、$C^* \approx 10^4$ PF-days）付近でどのように変化するか。 - 画像・音声・動画など他の生成モデルドメインでもアーキテクチャ独立性とべき乗則指数は同程度に成立するか。 - スケーリング則は損失（クロスエントロピー）のスケーリングを記述するが、「有用な能力」（推論、コーディング、数学）が損失のどのスケールで創発するかは依然として予測不可能。新しい評価枠組みが必要か。 - RL・後訓練・推論時計算（テスト時スケーリング）は訓練時スケーリングの代替か補完か。フロンティアでの証拠（Chinchilla-optimal モデルへのRL適用で性能が大きく向上した DeepSeek-R1 など）をどう整合させるか。 ## 関連 - ソース: [[@2020__arXiv__Scaling Laws for Neural Language Models]] / [[@2026__30papers__Scaling Laws for Neural Language Models]] / [[@2022__arXiv__Training Compute-Optimal Large Language Models]] / [[@2026__arXiv__Toto 2.0 - Time Series Forecasting Enters the Scaling Era]] - エンティティ: [[Jared Kaplan]] / [[Jordan Hoffmann]] / [[OpenAI]] / [[DeepMind]] / [[Toto]] / [[Datadog]] - 概念: [[LLMスケーリング則]] / [[計算最適訓練]] / [[言語モデル事前学習]] / [[文脈内学習]] / [[テスト時計算スケーリング]] / [[時系列基盤モデル]] / [[u-μP]] - 関連 MOC: [[分散深層学習 - MOC]] / [[時系列基盤モデル - MOC]] ## 出典 - [[@2020__arXiv__Scaling Laws for Neural Language Models]]（§1.1 Summary of Findings, §1.2 Summary of Scaling Laws, §3 Empirical Results, §5 Scaling Laws with Model Size and Training Time, §6 Optimal Allocation of the Compute Budget, Appendix A-B） - [[@2026__30papers__Scaling Laws for Neural Language Models]]（30papers掲載全文と用語解説、図1・3・13・15、原論文との照合） - [[@2022__arXiv__Training Compute-Optimal Large Language Models]]（§3 Estimating the optimal parameter/training tokens allocation：Table 2 アプローチ 3 種の指数推定、§4 Chinchilla：Gopher 比較実験）