@2020__arXiv__Scaling Laws for Neural Language Models

# Scaling Laws for Neural Language Models Jared Kaplan・Sam McCandlish（同等貢献）ほか [[OpenAI]] / Johns Hopkins University、arXiv:2001.08361v1、2020-01-23 提出。著者には Tom Henighan、Tom Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu、Dario Amodei が含まれる。 ## 概要（アブストラクト）本論文は、クロスエントロピー損失における言語モデル性能の経験的なスケーリング則を研究する。損失はモデルサイズ・データセットサイズ・訓練に使用する計算量に対してべき乗則でスケールし、その傾向は 7 桁以上にわたって確認される。ネットワークの幅や深さなどのアーキテクチャ詳細は、広い範囲で最小限の影響しか持たない。単純な方程式が、モデル/データセットサイズに対する過学習への依存と、モデルサイズに対する訓練速度への依存を支配する。これらの関係により、固定された計算バジェットの最適配分が決定できる。大きなモデルは小さなモデルより顕著にサンプル効率が良く、最適計算効率の訓練は、比較的控えめなデータ量で非常に大きなモデルを訓練し、収束前に大幅に早期停止することを要する。 ## 問題設定言語モデルの性能がモデルアーキテクチャ・ニューラルネットのサイズ・訓練に使った計算量・訓練用データのすべてにどのように依存するかを、 Transformer アーキテクチャを中心に実証的に調査する。言語タスクの高い天井と低い床が 7 桁以上のスケールにわたる傾向の研究を可能にする点が本研究の強みである。 **Figure 1: 図** ![[_attachments/arxiv-2001.08361/fig1-figure.png]] (Figure 1. It can be ﬁt with を示す。) **Figure 4: 図** ![[_attachments/arxiv-2001.08361/fig4-figure.png]] (Figure 4. ) Right: The extent of overﬁtting depends predominantly on the ratio N を示す。) **Figure 13: 図** ![[_attachments/arxiv-2001.08361/fig13-figure.png]] (Figure 13. We also predict that を示す。) **Figure 16: 図** ![[_attachments/arxiv-2001.08361/fig16-figure.png]] (Figure 16. This follows from the scaling law of Equation (1.5), which implies を示す。) ## 提案手法・分析 ### スケーリング則の骨格テスト損失 $L$ はモデルの非埋め込みパラメータ数 $N$、データセットサイズ $D$（トークン単位）、最小訓練計算量 $C_{\min}$ のそれぞれに対して独立にべき乗則でスケールする。 $L(N) = (N_c / N)^{\alpha_N}, \quad \alpha_N \approx 0.076$ $L(D) = (D_c / D)^{\alpha_D}, \quad \alpha_D \approx 0.095$ $L(C_{\min}) = (C_c^{\min} / C_{\min})^{\alpha_C^{\min}}, \quad \alpha_C^{\min} \approx 0.050$ ここで $N_c \approx 8.8 \times 10^{13}$（非埋め込みパラメータ）、$D_c \approx 5.4 \times 10^{13}$（トークン）、$C_c^{\min} \approx 3.1 \times 10^8$（PF-days）。 ### アーキテクチャ独立性深さ・幅・注意ヘッド数などのアーキテクチャパラメータは、非埋め込みパラメータ数 $N$ を固定すると性能への影響は数パーセントにとどまる。アスペクト比（幅/深さ比）は 40 倍変化しても 3% 程度の損失差しか生まない。これはアーキテクチャの詳細より規模そのものが性能を支配することを意味する。 ### 過学習と $L(N, D)$ $L(N, D) = \left[\left(\frac{N_c}{N}\right)^{\alpha_N / \alpha_D} + \frac{D_c}{D}\right]^{\alpha_D}$ $\alpha_N = 0.076$、$\alpha_D = 0.095$（実測フィット）。この式はモデルサイズを 8 倍にするとき、過学習ペナルティを回避するにはデータを約 5 倍に増やすだけでよいことを示す（$D \gtrsim (5 \times 10^3) N^{0.74}$）。 ### 訓練カーブの普遍性 $L(N, S_{\min}) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{S_c}{S_{\min}}\right)^{\alpha_S}$ $\alpha_S \approx 0.76$、$S_c \approx 2.1 \times 10^3$（ステップ）。モデルサイズとほぼ独立に訓練カーブをフィットでき、初期部分から長期の到達損失を外挿できる。 ### 臨界バッチサイズ $B_{\text{crit}}(L) = B^* / L^{1/\alpha_B}, \quad B^* \approx 2 \times 10^8 \text{ tokens}, \quad \alpha_B \approx 0.21$ 臨界バッチサイズは損失の関数であり、モデルサイズに直接は依存しない。最大モデル（収束時）では約 100〜200 万トークン程度となる。 ### 計算バジェットの最適配分固定計算 $C_{\min}$ のもとで最適モデルサイズは $N_{\text{opt}} \propto C_{\min}^{0.73}$、最適データ量は $D_{\text{opt}} \propto C_{\min}^{0.27}$ でスケールする。つまり計算増加分のほとんどはモデルサイズ拡大に充てるべきで、訓練ステップ数の増加は最小限（$S_{\min} \propto C_{\min}^{0.03}$）でよい。これは「大きなモデルを早期停止で」という訓練戦略を示す。 ## 新規性 1. モデルサイズ・データ・計算の三要素を統一的にべき乗則で記述した最初の包括的分析。 2. スケーリング則がアーキテクチャ詳細にほぼ独立することを定量化した。 3. 計算効率最適の訓練では大きなモデルを早期停止すべきという反直感的な結論を実証した。 4. 臨界バッチサイズが損失のみの関数であることを確認した。 ## 実験設定 - データ: WebText2（WebText の拡張版、20.3M ドキュメント・96 GB テキスト・22.9 億トークン。BPE トークナイザー、語彙サイズ 50,257） - モデル: 768〜15 億の非埋め込みパラメータを持つ decoder-only Transformer。比較用に LSTM と Universal Transformer も実験。 - 訓練: Adam オプティマイザ、固定 2.5 × 10^5 ステップ、バッチサイズ 512 シーケンス × 1,024 トークン（10 億パラメータ超は Adafactor）。コサイン減衰スケジュール（3,000 ステップのウォームアップ後）。 - 評価: WebText2 テストセット（6.6 × 10^8 トークン）のほか、Books Corpus、Common Crawl、英語 Wikipedia、公開インターネットブックも評価。 - スケール範囲: 計算量 $C_{\min}$ で 8 桁、$N$ で 6 桁、$D$ で 2 桁以上。 **Table 1: モデル構成** ![[_attachments/arxiv-2001.08361/table1-model.png]] (Table 1. Independence of nlayers would follow if deeper Transformers effectively behave as ensembles of shallower models, as has に関するモデル構成を示す。) ## 実験結果（具体的な指数値） | 量 | 指数 | スケール（トークナイザー依存） | |---|---|---| | $\alpha_N$（パラメータスケーリング） | 0.076 | $N_c = 8.8 \times 10^{13}$ params | | $\alpha_D$（データスケーリング） | 0.095 | $D_c = 5.4 \times 10^{13}$ tokens | | $\alpha_C$（計算スケーリング、素朴） | 0.057 | $C_c = 1.6 \times 10^7$ PF-days | | $\alpha_C^{\min}$（計算スケーリング、最適） | 0.050 | $C_c^{\min} = 3.1 \times 10^8$ PF-days | | $\alpha_B$（バッチサイズ） | 0.21 | $B^* = 2.1 \times 10^8$ tokens | | $\alpha_S$（訓練ステップ） | 0.76 | $S_c = 2.1 \times 10^3$ steps | 最適配分の指数: $N_{\text{opt}} \propto C_{\min}^{0.73}$、$B \propto C_{\min}^{0.24}$、$S_{\min} \propto C_{\min}^{0.03}$、$D_{\text{opt}} \propto C_{\min}^{0.27}$。パラメータ数を 2 倍にすると損失は $2^{-\alpha_N} = 0.95$ 倍（5% 削減）にとどまる（収穫逓減）。計算量を 10 倍にすると最適モデルサイズは約 5 倍増加し、データ要求量は約 2 倍に増えるのみ。 ## 考察本論文の分析は「気体の状態方程式」の類推を提案する——気体の巨視的特性（圧力・体積・温度）の普遍的な関係式のように、微視的な詳細（アーキテクチャ）に依存しない巨視的な言語モデル性能の法則が存在する。スケーリング則は画像・音声・動画モデルなど他のドメインにも拡張できると推測するが、どの結果が自然言語固有でどれが普遍的かは不明。理論的な「統計力学」的基礎の構築が今後の課題として挙げられる。また、損失の滑らかな改善が質的な能力向上を隠している可能性を指摘する（「more is different」）。より大きなモデルがより小さなモデルより継続的に優れ、サンプル効率も高いという結論から、モデル並列化の研究加速を促す。矛盾の推定として、計算効率訓練が進むとデータ制限に陥る可能性があり、その交差点は $C^* \approx 10^4$ PF-days、$N^* \approx 10^{12}$ パラメータ、$D^* \approx 10^{12}$ トークン、$L^* \approx 1.7$ nats/token 程度と推計される（ただし不確実性が大きい）。 ## 強み / 弱点 **強み**: - 7 桁以上のスケール範囲にわたる体系的な実験。 - 単純な関数形（べき乗則）が複数のスケール軸を統一的に記述する。 - アーキテクチャ独立性の実証により実務的な設計指針を提供。 - 臨界バッチサイズや早期停止時刻を定量的に予測するフレームワーク。 **弱点**: - 訓練損失（クロスエントロピー）を性能指標とし、下流タスク性能との関係は限定的に議論するのみ。 - WebText2 という単一データセット設定に依存（語彙・トークナイザー変更でスケール定数が変わる）。 - 後の Chinchilla（Hoffmann et al. 2022）はモデル偏重配分 ($N \propto C^{0.73}$) を均等配分 ($N \propto C^{0.49}$) に修正した。本論文の訓練設定が最適バッチサイズから外れていた点が一因。 - 10 億パラメータ超モデルを完全収束まで訓練するリソースが当時はなく、大規模端での実測点が不足。 ## 関連 - エンティティ: [[Jared Kaplan]] / [[OpenAI]] - 概念: [[スケーリング則]] / [[LLMスケーリング則]] / [[言語モデル事前学習]] / [[文脈内学習]] - ソース: [[@2020__NeurIPS__Language Models are Few-Shot Learners]]（GPT-3 がこの結果を利用） ## 出典 - `.raw/papers/arxiv-2001.08361.txt`（全文精読） - arXiv:2001.08361v1（Kaplan, McCandlish ほか、2020-01-23）