LLMスケーリング則 - yuuk1's Digital Garden

# LLMスケーリング則 ## 定義 LLM スケーリング則（scaling laws）とは、大規模言語モデルの性能（汎化誤差）がモデルスケール $N$、データスケール $D$、計算予算 $C$ の増加に伴い冪乗則に従って予測可能に改善するという経験的法則である。Kaplan et al. (2020) が $N_{\text{opt}} \propto C^{0.73}$, $D_{\text{opt}} \propto C^{0.27}$ とモデル偏重の配分を、Hoffmann et al. (2022, Chinchilla) が $N_{\text{opt}} \propto C^{0.49}$, $D_{\text{opt}} \propto C^{0.51}$ と均等配分を主張し、両者の不一致が問題となった。DeepSeek LLM はモデルスケール表現として非埋め込み FLOPS/トークン $M$ を導入し、$M_{\text{opt}} \propto C^{0.5243}$, $D_{\text{opt}} \propto C^{0.4757}$ を導出するとともに、データ品質が最適配分を左右することを示した。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) ## 横断的知見 - GPT-2（2019）はゼロショットタスク性能がモデル規模に対して対数線形に改善することを複数タスクで実証した。DeepSeek LLM（2024）は言語モデリング損失がモデル規模 $N$ とデータ規模 $D$ に対して冪乗則に従うことをより厳密に定量化した。両者を突き合わせると、スケーリング則はパープレキシティ（訓練損失）レベルだけでなく、ゼロショットの下流タスク性能レベルでも成立するという一貫した傾向が確認される。ただし GPT-2 は対数線形の経験的傾向を図示したにとどまり、冪乗則の指数や最適配分を定量化する分析には至っていない。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - GPT-2 は最大モデル（1.5B）でも WebText をアンダーフィットしており、さらなるスケールアップの余地を示唆した。DeepSeek LLM のスケーリング分析ではデータ品質が最適なモデル/データ配分を左右すると結論しており、両者を合わせると、訓練データの規模だけでなく品質もスケーリングの限界を規定する要因であることが浮かび上がる。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - GPT-3（2020）は 8 モデルサイズ（125M〜175B）の系列実験で、文脈内学習の性能がモデルパラメータ数に対して滑らかに改善する（smooth scaling）ことを実証した。特にゼロショットとの性能差はモデル規模が大きいほど拡大し、大きなモデルほど文脈内学習の恩恵が大きい。タスクによっては 175B で微調整 SOTA に匹敵（SuperGLUE 71.8 対微調整 BERT-Large 69.0、LAMBADA 精度 86.4% 対従来 SOTA 68.0%）する結果を達成した。GPT-2 が示唆したスケーリングの余地が 2 桁の規模拡大で下流タスク性能として結実した事例であり、DeepSeek LLM の冪乗則がモデリング損失のスケーリングを精緻化したのに対し、GPT-3 はスケーリング則の下流タスク性能への影響をより包括的に示した。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]], [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - **スケーリング則は言語以外の全モダリティに普遍的に成立し、最適モデルサイズの指数が共通である**: [[Tom Henighan]]・[[Jared Kaplan]] ら（2020）は画像・動画・マルチモーダル・数学的問題求解の 4 ドメインで損失が $L(x) = L_\infty + (x_0/x)^{\alpha_x}$ に従うことを示した。特に最適モデルサイズの指数 $\beta \approx 0.7$ が全モダリティで普遍的に一定であることは、言語モデルのスケーリング則（Kaplan et al. 2020）の一般化として重要である。これはデータモダリティに依らず「計算予算の増加分は長い訓練よりも大きなモデルの訓練に投入すべき」という同一の結論を導く。一方、データセットサイズのスケーリング $D \propto N^{0.4}$ というモデルサイズに対する劣線形なスケーリングは後の Chinchilla（$D \propto N$）と矛盾しており、未解決の問題を残している。(Source: [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]) - **低減不可能損失への接近は下流タスク性能の頭打ちを意味しない**: Henighan et al. (2020) は生成損失が不可逆成分（データ分布のエントロピー）に近づいても、ファインチューニングした ImageNet 分類性能はモデルサイズに対して純粋な冪乗則で改善し続けることを示した。これは「最後の数ビット」に重要な意味的情報が含まれることを示唆し、事前学習での性能追求を正当化する。(Source: [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]) - **GPT-4 のスケーリング則実用化：超大規模訓練前の性能予測が現実的に機能した**: OpenAI は GPT-4 の訓練計算量の 1/1,000〜1/10,000 しか使わない小規模モデルに不可逆損失項付き冪乗則 $L(C) = aC^b + c$ をフィットし、GPT-4 の内部コードベース損失と HumanEval パス率を訓練完了前に正確に予測した。これは Kaplan et al. (2020) のスケーリング則が実用の超大規模モデル開発に統合された最初の公的な大規模実証事例である。「予測可能スケーリング」という概念は GPT-4 報告書で初めて明示的な設計目標として掲げられた。また、逆スケーリング賞(Hindsight Neglect)でスケールとともに性能が下がるとされていた行動を GPT-4 が反転させた事例は、スケーリング則の適用範囲が一様でなく、創発的な能力の逆転がスケールで起きることを示唆する。(Source: [[@2023__arXiv__GPT-4 Technical Report]]) - **スケーリング則に基づく超大規模投資が失敗した事例が報告された**: [[Glenn K. Lockwood]]（元 Microsoft）によると、GPT-4 以降に [[Microsoft]] の超大規模クラスタで訓練した「魔法の」モデルは GPT-4o 比トークン単価 15 倍・推論に 120 GPU 必要で経済破綻し、2025 年 4 月に非推奨化された。対照的に競合の推論モデルが「小規模な旧式クラスタ」で匹敵する成果を達成した。DeepSeek-R1（SFT なし純粋 RL）やアーキテクチャ改善が「スケールより賢さ」方向への転換を示している。GPT-2/GPT-3 が確立したスケーリング則は 2023 年の GPT-4 まで有効だったが、フロンティアレベルではアルゴリズム改善がスケール追加の代替になりつつある可能性がある。(Source: [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]], [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2020__NeurIPS__Language Models are Few-Shot Learners]]) - **スケーリング則が「インフラ設計」の強力な推論ツールになっている**: HotNets 2024 では、Kaplan・Hoffmann のスケーリング則を直接使って「1000 億ドルデータセンターで訓練できる最適モデルサイズ」を 103.8T と導出し、そこからネットワーク通信量・並列化設計・トポロジ要件を全て演繹した。スケーリング則はモデル性能予測だけでなく、**インフラ調達の計画ツール**としても実用化されている。(Source: [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]]) ## 未解決の問い - 最適モデルサイズの指数 $\beta \approx 0.7$（Henighan et al. 2020・Kaplan et al. 2020）と $\beta \approx 0.49$（Chinchilla）の不一致は、データ品質・訓練エポック数・バッチサイズ設定のいずれが主因か、またどの条件下で Chinchilla 側の結論が正しくなるのか。(Source: [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]) - データセットサイズスケーリング $L(D)$ と計算量スケーリング $L(C)$ の見かけ上の矛盾（$L(C)$ の外挿が $L(D(C))$ を下回る）は、最適化効率の向上（より少ないエポックで収束）によって解消されるという著者らの仮説は、実際に実証されたか。(Source: [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]) - DeepSeek LLM のスケーリング則はデータ品質の影響を示したが、データ品質の定量的な指標（フィルタリング戦略、ドメイン比率、言語比率など）のうちどれがスケーリング配分に最も強く影響するかは未解明である。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - 非埋め込み FLOPS/トークン $M$ による精緻化は Dense モデルに対して行われたが、MoE のように活性化パラメータが全パラメータと大きく乖離するアーキテクチャでは $M$ の定義をどう拡張すべきか。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - ハイパーパラメータ（バッチサイズ・学習率）の冪乗則は計算予算 $C$ のみに依存するとモデル化されたが、モデル/データ配分が最適ハイパーパラメータ空間に与える影響は今後の課題として残った。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - Kaplan / Chinchilla / DeepSeek LLM のスケーリング則の不一致は、データ品質の違いで部分的に説明されるが、訓練の実装詳細（最適化手法、スケジューラ、精度）がどの程度スケーリング曲線に影響するかは定量化されていない。 - フロンティアモデルのスケーリング則的な「伸び」が鈍化し始めた 2025 年以降、アルゴリズム改善（RL、推論時計算）はスケール追加の完全な代替か、それとも補完的な手段か。もし代替なら、訓練規模の対数線形スケーリングは「フロンティア以前」に限定された現象になるのか。(Source: [[@2026__Glenn K. Lockwood Blog__AI doesnt need giant supercomputers after all]]) - GPT-4 で確認された「逆スケーリングの反転」（Hindsight Neglect 等）は、特定のタスク構造に依存した現象か、それとも大きなモデルで一般的に発生する「相転移」として理解すべきか。どのような訓練設定・タスク形式が創発的能力の反転を引き起こすのか。(Source: [[@2023__arXiv__GPT-4 Technical Report]]) ## 関連 - ソース: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] / [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] / [[@2020__NeurIPS__Language Models are Few-Shot Learners]] / [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]] / [[@2022__arXiv__Training Compute-Optimal Large Language Models]] / [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]] - エンティティ: [[DeepSeek-AI]] / [[DeepSeek LLM]] / [[GPT-2]] / [[GPT-3]] / [[OpenAI]] / [[Jared Kaplan]] / [[Tom Henighan]] / [[Jordan Hoffmann]] / [[DeepMind]] / [[Costin Raiciu]] - 概念: [[LLM分散学習]] / [[オープンLLM開発]] / [[計算最適訓練]] / [[AIデータセンタートポロジ]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]（§3 Scaling Laws: ハイパーパラメータの冪乗則, 非埋め込み FLOPS/トークン $M$, データ品質の影響, IsoFLOP プロファイル法） - [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]（図1: ゼロショットタスク性能のモデル規模依存性, §3 各ベンチマーク結果, §4 アンダーフィットの議論） - [[@2020__NeurIPS__Language Models are Few-Shot Learners]]（§1 Introduction: 8 モデルサイズ系列での滑らかなスケーリング, Figure 1.1: 文脈内学習性能のモデルサイズ依存性, §3 Results: タスク別のスケーリング傾向） - [[@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling]]（§1 Introduction: 全モダリティへの一般化・情報理論解釈, §2 Central Empirical Scaling Laws: モダリティ別指数の表, §2.3 Compute Scaling: $N_\text{opt} \propto C^{0.7}$ の普遍性, §3.4 Finetuning: 下流タスクでの継続的改善, §6 Inconsistency: データセット・計算量スケーリングの矛盾） - [[@2020__arXiv__Scaling Laws for Neural Language Models]]（§1.1 Key Findings, §1.2 Summary of Scaling Laws: べき乗則指数の一覧, §6 Optimal Allocation of the Compute Budget: $N_{\text{opt}} \propto C^{0.73}$） - [[@2022__arXiv__Training Compute-Optimal Large Language Models]]（§3 Table 2: 3 手法による指数推定 $a \approx b \approx 0.50$、§4 Chinchilla 評価結果: MMLU 67.6%・BIG-bench +10.7%） - [[@2023__arXiv__GPT-4 Technical Report]]（§3 Predictable Scaling: 損失予測・HumanEval パス率予測・逆スケーリング反転; Figure 1-3） - [[@2024__HotNets__I've Got 99 Problems But FLOPS Ain't One]](スケーリング則を用いた 103.8T パラメータモデルの物量設計・インフラ計画ツールとしての実用化)