@2020__arXiv__Scaling Laws for Autoregressive Generative Modeling

# Scaling Laws for Autoregressive Generative Modeling Tom Henighan・[[Jared Kaplan]]・Mor Katz ほか [[OpenAI]]、arXiv:2010.14701、2020-10-28。 ## 概要本論文は、言語モデルのスケーリング則が他のデータモダリティにも適用できるかを検証した実証研究である。画像生成モデル・動画モデル・マルチモーダル（画像↔テキスト）モデル・数学的問題求解の 4 ドメインに対して自己回帰型 Transformer を訓練し、クロスエントロピー損失がモデルサイズ $N$、計算予算 $C$、データセットサイズ $D$ の増加に対して冪乗則に従うことを示した。 **Table 1: 分布** ![[_attachments/arxiv-2010.14701/table1-distribution.png]] (Table 1. Here compute C is measured in PF-days, so the denominators estimate the amount of compute needed to achieve a reducible に関する分布を示す。) ## 中心的な発見 ### スケーリング則の形式全ドメインで損失は以下の形式で表される。 $L(x) = L_\infty + \left(\frac{x_0}{x}\right)^{\alpha_x}$ ここで $L_\infty$ は低減不可能損失（irreducible loss）、$(x_0/x)^{\alpha_x}$ は低減可能損失（reducible loss）である。情報理論的解釈として、$L_\infty$ はデータ分布のエントロピー $S(\text{True})$ を推定し、低減可能損失は真の分布とモデル分布の KL ダイバージェンス $D_\text{KL}(\text{True} \| \text{Model})$ を推定する。 ### 最適モデルサイズのモダリティ横断的普遍性計算予算 $C$ が固定されたときの最適モデルサイズは $N_\text{opt}(C) \propto C^\beta$ と冪乗則で表されるが、指数 $\beta \approx 0.7$ がすべてのデータモダリティでほぼ一定であるという驚くべき結果が得られた（図 2）。これは言語モデリングから得られた教訓——計算予算の大半は長い訓練よりも大きなモデルの訓練に投入すべき——が全ドメインに一般化することを示す。データセットサイズのスケーリングについては、$D \propto C^{1-\beta} \propto N^{0.4}$ と、モデルサイズに対して劣線形なスケーリングが示唆された（表 1）。 ### ドメイン別のスケーリング指数各ドメインのモデルサイズおよび計算量スケーリング指数は、言語よりも大きな（緩やかに改善する）傾向にある。画像 8×8 ピクセルでは $\alpha_N = 0.24$、言語では $\alpha_N = 0.070$ であり、画像の方が単位スケールあたりの性能向上が大きい。 ### 下流タスクへのスケーリング ImageNet（32×32 解像度）での分類タスクにファインチューニングした場合、事前学習モデルの性能はモデルサイズに対して純粋な冪乗則で改善し続ける。特に重要なのは、生成損失が低減不可能損失に近づいてもこの傾向が維持されることであり、「低減不可能損失への近接」が必ずしも下流タスク性能の頭打ちを意味しないことを示す。最後の数ビットの情報に重要な意味的情報が含まれていると著者らは解釈する。 ### マルチモーダルモデルと情報理論画像↔テキストマルチモーダルモデルにおいて、テキストと画像の経験的相互情報量と Infogain（= 相互情報量 / テキスト損失）がモデルサイズ $N$ に対して対数線形にスケールすることを確認した。10 億パラメータのテキスト→画像モデルはテキストの情報量の約 10% を画像生成に活用しており、Infogain = 1 には約 3 兆パラメータが必要と推定される。また、現時点での最良の 32×32 画像↔テキストモデルでは「1 枚の絵は 2〜3 語に値する」との結論が得られた。 ### 数学的問題求解と外挿数学的問題求解は確定論的な答えを持つ点で他モダリティと異なるが、スケーリング則は適用された。外挿（訓練分布を超えた難易度）性能はモデルサイズが大きいほど向上するが、同じ訓練損失を達成したモデル間では外挿性能が同等となる。つまり大きなモデルが外挿をうまく行う理由は、モデルサイズ自体でなく訓練分布での良い性能を通じて間接的に達成される。 ### アスペクト比の最適化言語モデルの最適アスペクト比（$d_\text{model} / n_\text{layer} \approx 100$）に対し、画像・動画・数学モデルは $\approx 5$（少なくとも 10 倍深いネットワーク）が最適であることが示された。 ### スケーリング則の整合性問題データセットサイズスケーリング $L(D)$ と計算量スケーリング $L(C)$ の間に見かけ上の矛盾が存在する。$L(C)$ のトレンドを外挿すると、大きい計算量で $L(D(C))$ を下回るように見えるが、物理的制約（学習曲線は常に $L(D)$ より上にある）からそれは不可能である。著者らはモデルサイズが増加するにつれて最適化効率が向上し、最終的にエポック数 1 で収束に達する仮説を提案している。 ## 実験設定全ドメインで共通してデコーダのみの Transformer モデルを自己回帰クロスエントロピー損失で訓練した。画像・動画・数学ではスパースアテンション（局所バンド + 固定ストライドの交互）を用いた。YFCC100M の画像データセット（約 $10^8$ 枚、8×8〜32×32 ピクセル）、約 $7 \times 10^5$ 動画（各 64×64、16 フレーム）、マルチモーダル（32×32 画像 + 128 トークンキャプション）、手続き生成の数学問題を使用した。 ## 意義と位置づけ本論文は Kaplan et al. (2020)（言語モデルのスケーリング則）の後続研究として、スケーリング則の普遍性を多モダリティに拡張した。Transformer アーキテクチャが単一の枠組みで全データモダリティにスケールするという発見は、後続の GPT-4 や DALL-E、Sora といったマルチモーダル大規模モデル開発に影響を与えた。指数 $\beta \approx 0.7$ の普遍性は 2022 年の Chinchilla 論文（$\beta \approx 0.49$）との不一致が後に指摘されるが、本論文はその重要な先駆として位置づけられる。 ## 出典 - arxiv:2010.14701（arXiv 2020-10-28 / v2 2020-11-06） - Tom Henighan・[[Jared Kaplan]]・Mor Katz・Mark Chen・Christopher Hesse・Jacob Jackson・Heewoo Jun・Tom B. Brown・Prafulla Dhariwal・Scott Gray・Chris Hallacy・Benjamin Mann・Alec Radford・Aditya Ramesh・Nick Ryder・Daniel M. Ziegler・John Schulman・Dario Amodei・Sam McCandlish（[[OpenAI]] / Johns Hopkins University）