# LLMスケーリング則 ## 定義 LLM スケーリング則(scaling laws)とは、大規模言語モデルの性能(汎化誤差)がモデルスケール $N$、データスケール $D$、計算予算 $C$ の増加に伴い冪乗則に従って予測可能に改善するという経験的法則である。Kaplan et al. (2020) が $N_{\text{opt}} \propto C^{0.73}$, $D_{\text{opt}} \propto C^{0.27}$ とモデル偏重の配分を、Hoffmann et al. (2022, Chinchilla) が $N_{\text{opt}} \propto C^{0.49}$, $D_{\text{opt}} \propto C^{0.51}$ と均等配分を主張し、両者の不一致が問題となった。DeepSeek LLM はモデルスケール表現として非埋め込み FLOPS/トークン $M$ を導入し、$M_{\text{opt}} \propto C^{0.5243}$, $D_{\text{opt}} \propto C^{0.4757}$ を導出するとともに、データ品質が最適配分を左右することを示した。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) ## 横断的知見 - GPT-2(2019)はゼロショットタスク性能がモデル規模に対して対数線形に改善することを複数タスクで実証した。DeepSeek LLM(2024)は言語モデリング損失がモデル規模 $N$ とデータ規模 $D$ に対して冪乗則に従うことをより厳密に定量化した。両者を突き合わせると、スケーリング則はパープレキシティ(訓練損失)レベルだけでなく、ゼロショットの下流タスク性能レベルでも成立するという一貫した傾向が確認される。ただし GPT-2 は対数線形の経験的傾向を図示したにとどまり、冪乗則の指数や最適配分を定量化する分析には至っていない。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - GPT-2 は最大モデル(1.5B)でも WebText をアンダーフィットしており、さらなるスケールアップの余地を示唆した。DeepSeek LLM のスケーリング分析ではデータ品質が最適なモデル/データ配分を左右すると結論しており、両者を合わせると、訓練データの規模だけでなく品質もスケーリングの限界を規定する要因であることが浮かび上がる。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - GPT-3(2020)は 8 モデルサイズ(125M〜175B)の系列実験で、文脈内学習の性能がモデルパラメータ数に対して滑らかに改善する(smooth scaling)ことを実証した。特にゼロショットとの性能差はモデル規模が大きいほど拡大し、大きなモデルほど文脈内学習の恩恵が大きい。タスクによっては 175B で微調整 SOTA に匹敵(SuperGLUE 71.8 対微調整 BERT-Large 69.0、LAMBADA 精度 86.4% 対従来 SOTA 68.0%)する結果を達成した。GPT-2 が示唆したスケーリングの余地が 2 桁の規模拡大で下流タスク性能として結実した事例であり、DeepSeek LLM の冪乗則がモデリング損失のスケーリングを精緻化したのに対し、GPT-3 はスケーリング則の下流タスク性能への影響をより包括的に示した。(Source: [[@2020__NeurIPS__Language Models are Few-Shot Learners]], [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]], [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) ## 未解決の問い - DeepSeek LLM のスケーリング則はデータ品質の影響を示したが、データ品質の定量的な指標(フィルタリング戦略、ドメイン比率、言語比率など)のうちどれがスケーリング配分に最も強く影響するかは未解明である。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - 非埋め込み FLOPS/トークン $M$ による精緻化は Dense モデルに対して行われたが、MoE のように活性化パラメータが全パラメータと大きく乖離するアーキテクチャでは $M$ の定義をどう拡張すべきか。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - ハイパーパラメータ(バッチサイズ・学習率)の冪乗則は計算予算 $C$ のみに依存するとモデル化されたが、モデル/データ配分が最適ハイパーパラメータ空間に与える影響は今後の課題として残った。(Source: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]]) - Kaplan / Chinchilla / DeepSeek LLM のスケーリング則の不一致は、データ品質の違いで部分的に説明されるが、訓練の実装詳細(最適化手法、スケジューラ、精度)がどの程度スケーリング曲線に影響するかは定量化されていない。 ## 関連 - ソース: [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]] / [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] / [[@2020__NeurIPS__Language Models are Few-Shot Learners]] - エンティティ: [[DeepSeek-AI]] / [[DeepSeek LLM]] / [[GPT-2]] / [[GPT-3]] / [[OpenAI]] / [[Jared Kaplan]] - 概念: [[LLM分散学習]] / [[オープンLLM開発]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2024__arXiv__DeepSeek LLM - Scaling Open-Source Language Models with Longtermism]](§3 Scaling Laws: ハイパーパラメータの冪乗則, 非埋め込み FLOPS/トークン $M$, データ品質の影響, IsoFLOP プロファイル法) - [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]](図1: ゼロショットタスク性能のモデル規模依存性, §3 各ベンチマーク結果, §4 アンダーフィットの議論) - [[@2020__NeurIPS__Language Models are Few-Shot Learners]](§1 Introduction: 8 モデルサイズ系列での滑らかなスケーリング, Figure 1.1: 文脈内学習性能のモデルサイズ依存性, §3 Results: タスク別のスケーリング傾向)