@2022__arXiv__Training Compute-Optimal Large Language Models

# Training Compute-Optimal Large Language Models > [!abstract] > 固定された計算予算のもとでトランスフォーマー言語モデルを訓練するにあたり、最適なモデルサイズとトークン数を調査する。現在の大規模言語モデルは著しく訓練不足であり、これはモデルサイズのスケールアップに注力してきた一方で訓練データ量をほぼ固定してきたことに起因する。7,000 万から 160 億以上のパラメータを持つ 400 超の言語モデルを、50 億から 5,000 億トークンで訓練した結果、計算最適訓練ではモデルサイズとトークン数を等比率でスケールすべきことが判明した。すなわち、モデルサイズを 2 倍にするたびに訓練トークン数も 2 倍にすべきである。この仮説を検証するため、Gopher と同一の計算予算を用い、70B パラメータ・4 倍のデータで訓練した計算最適モデル Chinchilla を構築した。Chinchilla は Gopher (280B)・GPT-3 (175B)・Jurassic-1 (178B)・Megatron-Turing NLG (530B) を多様な下流評価タスクで一様かつ大幅に上回った。さらに Chinchilla は推論とファインチューニングに必要な計算量が大幅に少なく、下流利用が容易になる。特筆すべき成果として、MMLU ベンチマークで当時最高精度 67.5% を達成し、Gopher を 7% 超上回った。 ## 論文情報 | 項目 | 内容 | |---|---| | タイトル | Training Compute-Optimal Large Language Models | | 通称 | Chinchilla | | 著者 | Jordan Hoffmann★, Sebastian Borgeaud★, Arthur Mensch★, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, Laurent Sifre★ (★は同等貢献) | | 所属 | [[DeepMind]] | | 公開日 | 2022-03-29 | | arXiv ID | arXiv:2203.15556v1 | | URL | https://arxiv.org/abs/2203.15556 | ## 概要本論文は大規模言語モデルの[[計算最適訓練]]を定式化し、**Chinchilla スケーリング則**と呼ばれる新たな経験的法則を導いた。 [[Jared Kaplan|Kaplan et al. (2020)]] が提唱した従来のスケーリング則では、計算予算 $C$ を増やすとき、最適モデルサイズは $N_{\text{opt}} \propto C^{0.73}$（モデル偏重）とされていた。本研究はこれを否定し、3 つの独立したアプローチすべてが「**モデルサイズとトークン数を約 1:1 で等比率にスケールすべき**」という結論を支持することを示した。 ![[_attachments/arxiv-2203.15556/fig01-overlaid-predictions.png]] *図 1：3 つのアプローチと Kaplan et al. (2020) からの予測を重ねたもの。いずれも現在の大規模モデルが過大なサイズで不足したデータで訓練されていることを示す。Chinchilla が Gopher や他モデルを上回ることも示されている。* ## 問題設定固定された計算予算 $C$ のもとで、最終的な事前学習損失 $L(N, D)$ を最小化する最適パラメータ数 $N$ とトークン数 $D$ の組合せを求める問題： $N_{\text{opt}}(C),\, D_{\text{opt}}(C) = \underset{N,D \text{ s.t. FLOPs}(N,D)=C}{\arg\min}\, L(N, D)$ 実践的な背景として、大規模モデルの訓練は通常 1 度しか行えないため、計算予算の最適配分を事前に正確に推定することが極めて重要である。GPT-3 以降の主要モデル（LaMDA・GPT-3・Jurassic-1・Gopher・MT-NLG 530B）はいずれも約 3,000 億トークンで訓練されており、増加した計算量のほぼすべてをモデルサイズ拡大に充ててきた。 ## 提案手法 ### 3 つの推定アプローチ **アプローチ 1：固定モデルサイズ、可変トークン数** 7,000 万〜100 億パラメータの固定モデル群を 4 種類のトークン数で訓練。訓練曲線からフロップごとの最小損失を抽出し、べき乗則でフィット。推定指数：$a = 0.50$、$b = 0.50$（$N_{\text{opt}} \propto C^a$、$D_{\text{opt}} \propto C^b$）。 ![[_attachments/arxiv-2203.15556/fig02-training-curve-envelope.png]] *図 2：訓練曲線のエンベロープ。Gopher の計算予算に対して、最適モデルサイズと最適トークン数の予測を緑色で示す。* **アプローチ 2：IsoFLOP プロファイル** 9 段階の固定フロップ予算（$6 \times 10^{18}$ から $3 \times 10^{21}$ フロップス）でモデルサイズを変動させ、最終損失の谷を放物線フィットで特定。推定指数：$a = 0.49$、$b = 0.51$。 ![[_attachments/arxiv-2203.15556/fig03-isoflop-curves.png]] *図 3：IsoFLOP 曲線。各フロップ予算に対して、損失の谷（最適モデルサイズ）が明確に現れる。* **アプローチ 3：パラメトリック損失関数フィッティング** 損失 $L(N, D)$ を以下の関数形でモデル化し、L-BFGS + Huber 損失でフィット： $\hat{L}(N, D) \equiv E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}$ - 第 1 項 $E$：自然言語の情報エントロピー（モデルが到達できる下限） - 第 2 項 $A/N^\alpha$：有限サイズのモデルによる近似誤差 - 第 3 項 $B/D^\beta$：有限トークン数による収束不足推定指数：$a = 0.46$、$b = 0.54$。 ![[_attachments/arxiv-2203.15556/fig04-parametric-fit.png]] *図 4：パラメトリックフィットの等損失輪郭（左）と IsoFLOP スライス（右）。Gopher の計算予算に対して最適モデルサイズを 40B と予測している。* ### Chinchilla モデル 3 つのアプローチいずれも「Gopher の計算予算（$5.76 \times 10^{23}$ フロップス）に対して最適なモデルサイズは 40〜70B パラメータ」と予測したことを受け、70B パラメータ・1.4 兆トークンの計算最適モデル **Chinchilla** を訓練した。主な仕様： - パラメータ数：70B（Gopher の約 1/4） - 訓練トークン数：1.4 兆（Gopher の 4 倍） - 計算予算：Gopher と同一 - データセット：MassiveText（Gopher と同一、比率は微調整） - オプティマイザ：AdamW（Gopher は Adam） - ハードウェア：TPUv3/TPUv4 Chinchilla アーキテクチャ詳細： | 項目 | Gopher 280B | Chinchilla 70B | |---|---|---| | 層数 | 80 | 80 | | アテンションヘッド数 | 128 | 64 | | キー/バリューサイズ | 128 | 128 | | $d_{\text{model}}$ | 16,384 | 8,192 | | 最大学習率 | $4 \times 10^{-5}$ | $1 \times 10^{-4}$ | ## 新規性 ### Kaplan et al. (2020) との対比 | 観点 | Kaplan et al. (2020) | 本論文（Chinchilla） | |---|---|---| | $N_{\text{opt}}$ の指数 | 0.73 | 0.46〜0.50 | | $D_{\text{opt}}$ の指数 | 0.27 | 0.50〜0.54 | | 結論 | モデル偏重スケール | 均等スケール | | 最大モデルサイズ | 主に < 100M | 最大 16B | | 学習率スケジューラ | 固定（不正確な中間損失推定） | トークン数に合わせて調整 | 従来研究との技術的差異は 2 点ある。第 1 に、Kaplan et al. は全モデルを固定の学習率スケジュールで訓練したため、少ないデータでの訓練効果を過小評価し、データよりモデルを優先する結論に至った。第 2 に、本論文は最大 16B パラメータのモデルを含み、フロップ−損失フロンティアのわずかな曲率（負の曲率）を観測できた。(Source: §2 Related Work) ## 実験設定 - 訓練したモデル数：400 超 - モデルサイズ範囲：7,000 万〜160 億パラメータ（スケーリング実験） - トークン数範囲：50 億〜4,000 億トークン超 - データセット：MassiveText（MassiveWeb 45%・Books 30%・C4 10%・News 10%・GitHub 4%・Wikipedia 1%） - フレームワーク：JAX + Haiku - ハードウェア：TPUv3/TPUv4 評価タスク（Table 5）： - 言語モデリング（20 タスク）：WikiText-103、The Pile 各サブセット - 読解（3 タスク）：RACE-m、RACE-h、LAMBADA - 質問応答（3 タスク）：Natural Questions、TriviaQA、TruthfulQA - 常識推論（5 タスク）：HellaSwag、Winogrande、PIQA、SIQA、BoolQ - MMLU（57 タスク）：高校・大学・専門科目の多岐にわたる問題 - BIG-bench（62 タスク） ## 実験結果 ### モデル比較 Chinchilla (70B) は Gopher (280B) と同一の計算予算で訓練されたにもかかわらず、ほぼすべての評価タスクで Gopher を上回った。 **MMLU（5-shot）** | モデル | 精度 | |---|---| | Random | 25.0% | | GPT-3 5-shot | 43.9% | | Gopher 5-shot | 60.0% | | **Chinchilla 5-shot** | **67.6%** | | 人間専門家平均 | 89.8% | | 2023 年 6 月時点の専門家予測 | 63.4% | Chinchilla は 57 タスク中 51 タスクで Gopher を上回り、4 タスクのみ下回った（college_mathematics・econometrics・moral_scenarios・formal_logic）。さらに MMLU の 4 タスク（high_school_gov_and_politics・international_law・sociology・us_foreign_policy）で 90% 超を達成した。(Source: §4.2.2) **読解（LAMBADA・RACE）** | タスク | Chinchilla | Gopher | GPT-3 | MT-NLG 530B | |---|---|---|---|---| | LAMBADA（ゼロショット） | 77.4% | 74.5% | 76.2% | 76.6% | | RACE-m（フューショット） | 86.8% | 75.1% | 58.1% | — | | RACE-h（フューショット） | 82.3% | 71.6% | 46.8% | 47.9% | **常識推論（ゼロショット）** | タスク | Chinchilla | Gopher | GPT-3 | MT-NLG 530B | |---|---|---|---|---| | HellaSWAG | 80.8% | 79.2% | 78.9% | 80.2% | | PIQA | 81.8% | 81.8% | 81.0% | 82.0% | | Winogrande | 74.9% | 70.1% | 70.2% | 73.0% | | BoolQ | 83.7% | 79.3% | 60.5% | 78.2% | **BIG-bench（62 タスク）** Chinchilla は 62 タスク中 58 タスクで Gopher を上回り、平均精度 65.1%（Gopher 54.4%、改善率 10.7%）を達成した。 **閉本型質問応答** | タスク | Chinchilla | Gopher | GPT-3 | |---|---|---|---| | Natural Questions（5-shot） | 31.5% | 24.5% | — | | Natural Questions（64-shot） | 35.5% | 28.2% | 29.9% | | TriviaQA（フィルタリング済み、5-shot） | 64.1% | 57.0% | — | **言語モデリング（The Pile）** The Pile の全サブセットで Chinchilla が Gopher を上回った（bits-per-byte で改善）。 ### 偏見・毒性評価 Winogender（性差別バイアス）では、Chinchilla は全カテゴリで Gopher を上回ったが、改善幅は男性代名詞（+3.2%）より女性・中性代名詞（+8.3%、+9.2%）で大きく、計算最適訓練による性能改善がカテゴリ間で不均一であることが示された。無条件テキスト生成の毒性スコア（PerspectiveAPI）は Gopher と Chinchilla で有意差なし（平均：Gopher 0.081 対 Chinchilla 0.087）。毒性は訓練損失の向上（モデルの改善）とほぼ独立している。(Source: §4.2.7) ## 考察本論文の主要な含意は 2 点である。第 1 に、**現行の大規模言語モデルはいずれも計算予算に対して過大なサイズで訓練されており**、同じ計算量でより小さいモデルをより多くのデータで訓練した場合に性能は改善する。第 2 に、モデルスケールと同等か以上に**データセット規模の拡大が重要**であり、高品質なデータの収集が今後の研究課題の中心となる。著者らはデータセットの拡大には以下のリスクが伴うと指摘している： - 訓練・テストセット汚染（leakage）の増大 - 有害表現・偏見・個人情報の混入量の増加推論コストの観点でも Chinchilla の優位性は大きい。モデルサイズが Gopher の 1/4 であるため、メモリフットプリントと推論計算量も同程度に削減される。大規模言語モデルの計算コストは推論利用を通じて償却されるため、より小さいが高性能な Chinchilla の利便性はトレーニング以降の利用フェーズで特に重要となる。 ### 限界と将来課題 - 大規模な比較訓練は Chinchilla と Gopher の 2 点のみ。中間スケールでの追加検証がない - 訓練フロンティアにべき乗則を仮定したが、高計算量領域でわずかな負の曲率が観測されており、最適モデルサイズをなお過大評価している可能性がある - 1 エポック未満の訓練のみを対象としており、複数エポック訓練への適用は今後の課題 ## 強み / 弱点・課題 **強み** - 3 つの独立した方法論（訓練曲線エンベロープ・IsoFLOP プロファイル・パラメトリックフィット）で結論が一致し、頑健性が高い - 400 超のモデルを実際に訓練した大規模な実証研究 - Chinchilla という実際のモデルで仮説を直接検証 - 推論コスト削減という実用上の利点が明確 **弱点・課題** - 1 データポイント（Chinchilla vs. Gopher）の大規模比較のみ。外挿は不確実性が大きい - 訓練実装の細部（バッチサイズ、最適化手法の変更）が Gopher と Chinchilla で異なり、純粋なモデルサイズ・データ量効果との分離が困難 - 複数エポック訓練（データ反復利用）への適用可否が未検証 - データ品質の影響が未定量化（高品質データでは最適配分が変わる可能性） ## 関連 - エンティティ: [[Jordan Hoffmann]] / [[DeepMind]] / [[Jared Kaplan]] - 概念: [[スケーリング則]] / [[LLMスケーリング則]] / [[計算最適訓練]] - 関連ソース: [[@2020__arXiv__Scaling Laws for Neural Language Models]] ## 出典 - §1 Introduction: Chinchilla の概要、既存モデルの比較（Table 1） - §2 Related Work: Kaplan et al. との技術的差異の詳細 - §3 Estimating the optimal parameter/training tokens allocation: 3 つのアプローチ（Table 2、3、Figure 1–4） - §4 Chinchilla: モデル詳細（Table 4）、評価結果（Table 5–10、Figure 5–7） - §5 Discussion & Conclusion: 考察と限界 - Appendix A: MassiveText データ構成（Table A1）