2020__arXiv__Scaling Laws for Neural Language Model

## Memo - [[OpenAI]]による[[LLMのScaling Laws|スケーリング則]]の論文 ## Structure ### 1. Standpoints ### 2. Contributions ### 3. Major Ideas ### 4. Results ### 5. Discussions & Limitations ## Abstract 我々は、クロスエントロピーの損失に対する言語モデルの性能に関する経験的なスケーリング則を研究している。損失はモデルサイズ、データセットサイズ、学習に用いる計算量に対してべき乗則としてスケールし、いくつかの傾向は7桁以上に渡っている。ネットワークの幅や深さなど、他のアーキテクチャの詳細は、広い範囲ではほとんど効果がない。単純な方程式は、オーバーフィッティングのモデル/データセットサイズへの依存性と、学習速度のモデルサイズへの依存性を支配する。これらの関係から、固定された計算予算の最適な配分を決定することができる。より大きなモデルはよりサンプル効率が高く、最適な計算効率の良い学習には、非常に大きなモデルを比較的少ない量のデータで学習し、収束するまでに大幅に停止させる。 ## 1. Introduction