計算最適訓練 - yuuk1's Digital Garden

# 計算最適訓練 ## 定義計算最適訓練（Compute-Optimal Training）とは、固定された計算予算 $C$（フロップス単位）のもとで最終損失を最小化するよう、モデルパラメータ数 $N$ と訓練トークン数 $D$ を最適に配分する訓練戦略である。 Hoffmann et al. (2022)（通称「Chinchilla 論文」）が確立した Chinchilla スケーリング則によれば、その最適配分は以下のべき乗則に従う： $N_{\text{opt}} \propto C^{a}, \quad D_{\text{opt}} \propto C^{b}$ 3 つの独立した推定手法（訓練曲線エンベロープ・IsoFLOP プロファイル・パラメトリック損失フィット）のすべてが $a \approx b \approx 0.50$ を支持し、「**計算予算を増やすとき、モデルサイズと訓練トークン数は等比率でスケールすべき**」という結論を示した。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) これは Kaplan et al. (2020) が提唱した「モデル偏重スケーリング」（$a = 0.73$、$D_{\text{opt}} \propto C^{0.27}$）とは根本的に異なる主張である。 ## 背景と問題意識 [[Jared Kaplan|Kaplan et al. (2020)]] が提唱したスケーリング則（$N_{\text{opt}} \propto C^{0.73}$）を受け、2020〜2022 年の大規模言語モデル開発は一様にモデルサイズの拡大に注力してきた。その結果、GPT-3 (175B)・Jurassic-1 (178B)・Gopher (280B)・MT-NLG 530B はいずれも約 3,000 億トークンという限られたデータで訓練された。 Hoffmann et al. はこの傾向を「計算予算に対して過大なサイズのモデルが過小なデータで訓練されている（undertrained）」と診断し、最適配分の再推定を試みた。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]]) ## Chinchilla スケーリング則の導出 ### 3 つのアプローチ | アプローチ | 方法論 | 推定指数 $a$ | 推定指数 $b$ | |---|---|---|---| | 1. 訓練曲線エンベロープ | 固定モデルサイズ・可変トークン数 | 0.50 | 0.50 | | 2. IsoFLOP プロファイル | 固定フロップス・可変モデルサイズ | 0.49 | 0.51 | | 3. パラメトリックフィット | 全実験点へのパラメータ関数フィット | 0.46 | 0.54 | | Kaplan et al. (2020) | （参考） | 0.73 | 0.27 | (Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] §3、Table 2) ### 最適モデルサイズの具体的推計 | パラメータ数 | フロップス | Gopher 予算比 | 推奨トークン数 | |---|---|---|---| | 10B | $1.23 \times 10^{22}$ | 1/46 | 2,051 億 | | 67B | $5.76 \times 10^{23}$ | 1 | 1.5 兆 | | 175B | $3.85 \times 10^{24}$ | 6.7 | 3.7 兆 | | 280B | $9.90 \times 10^{24}$ | 17.2 | 5.9 兆 | (Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] §3.4、Table 3) ## Chinchilla による実証 Chinchilla (70B, 1.4T トークン) は Gopher (280B, 300B トークン) と同一の計算予算（$5.76 \times 10^{23}$ フロップス）で訓練されながら、評価タスクのほぼ全域で Gopher を上回った： - **MMLU（5-shot）**：67.6%（Gopher 60.0%） - **BIG-bench（62 タスク）**：平均 65.1%（Gopher 54.4%、+10.7%） - **LAMBADA（0-shot）**：77.4%（Gopher 74.5%） - **The Pile 全サブセット**：全て Gopher 以上の bits-per-byte (Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] §4.2) ## 実用上の含意計算最適訓練の原則は推論コストの観点でも重要な帰結をもたらす。大規模言語モデルの計算コストは訓練以降の推論利用を通じて長期的に償却されるため、**同性能のより小さなモデルは推論フェーズで大幅な優位性を持つ**。 Chinchilla は Gopher の 1/4 のサイズで同等以上の性能を達成したことで： - 推論に必要な GPU メモリが約 1/4 - 推論スループットが大幅に向上 - より小型のハードウェアでのデプロイが可能この観点は大規模言語モデルを実用展開する組織にとって特に重要であり、訓練コストだけでなく総保有コスト（TCO）の最小化という設計目標につながる。 ## 横断的知見 - **「Chinchilla-optimal モデルへの RL 適用」**: 計算最適に訓練されたコンパクトなモデルが、RL などの後訓練（post-training）に特に適していることが後続研究で示された。DeepSeek-R1 など強力な推論モデルが「Chinchilla サイズ域」の事前学習モデルを起点とした点は、計算最適訓練と後訓練の相補性を示唆する。(Source: 関連研究より) - **データ品質が最適配分を変える可能性**: Hoffmann et al. は高品質なデータを大量に集めることが今後の鍵と主張した。DeepSeek LLM (2024) は実際にデータ品質の違いが最適な $N$/$D$ 配分を左右することを示し、「Chinchilla 則は高品質データを前提とした場合に特に成立しやすい」という解釈を支持する。(Source: 関連研究より) - **1 エポック制約**: Chinchilla 論文のスケーリング実験はいずれも訓練データを 1 エポック未満で使用しており、複数エポック訓練の最適配分には適用できない可能性がある。近年のモデルはデータ量が計算最適の要求より少ない場合に反復利用するケースが増えており、この限界が注目されている。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] §5) > [!contradiction] > **Kaplan et al. (2020) vs. Hoffmann et al. (2022) のスケーリング指数不一致** > Kaplan et al. は $N_{\text{opt}} \propto C^{0.73}$（モデル偏重）を主張し、Hoffmann et al. は $N_{\text{opt}} \propto C^{0.49}$（均等）を主張する。両研究の不一致は、Kaplan et al. が固定の学習率スケジュールを用いたため少ないデータでの中間損失を過大評価した可能性と、使用したモデルサイズの範囲（Kaplan は主に 100M 未満、Hoffmann は最大 16B）の違いで部分的に説明される。ただし完全な調和には至っておらず、データ品質・バッチサイズ・最適化手法の差異が追加的要因となりうる。(Source: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] §2、[[スケーリング則]]、[[LLMスケーリング則]]) ## 未解決の問い - 複数エポック訓練では最適 $N$/$D$ 配分はどう変わるか。データ再利用の限界（過学習点）はどのスケールで現れるか。 - 「Chinchilla-optimal」モデルが RL などの後訓練に最も適しているという観察は、事前学習の質と後訓練効率の間にどのような定量的関係があることを示唆するか。 - データ品質の定量的指標（フィルタリング度合い、ドメイン多様性）が最適 $a$・$b$ 指数をどの程度変化させるか。Chinchilla 則は「高品質データを前提とした特殊ケース」か、「一般的な原則」か。 - 訓練損失の改善（計算最適化）は、下流タスク性能（特に創発的能力）の改善と一対一に対応するか。Chinchilla は MMLU 等の平均精度では優れるが、特定の推論タスクでは Gopher が上回る事例も存在した。 ## 関連 - ソース: [[@2022__arXiv__Training Compute-Optimal Large Language Models]] - エンティティ: [[Jordan Hoffmann]] / [[DeepMind]] / [[Jared Kaplan]] - 概念: [[スケーリング則]] / [[LLMスケーリング則]] / [[言語モデル事前学習]] / [[テスト時計算スケーリング]] - 関連 MOC: [[分散深層学習 - MOC]] ## 出典 - [[@2022__arXiv__Training Compute-Optimal Large Language Models]]（§1 Introduction：問題設定・動機、§3 Estimating the optimal parameter/training tokens allocation：3 アプローチ・Table 2–3、§4 Chinchilla：モデル詳細・評価結果、§5 Discussion & Conclusion：限界・将来課題）