## Memo
- [[OpenAI]]による[[LLMのScaling Laws|スケーリング則]]の論文
## Structure
### 1. Standpoints
### 2. Contributions
### 3. Major Ideas
### 4. Results
### 5. Discussions & Limitations
## Abstract
我々は、クロスエントロピーの損失に対する言語モデルの性能に関する経験的なスケーリング則を研究している。損失はモデルサイズ、データセットサイズ、学習に用いる計算量に対して べき乗則としてスケールし、いくつかの傾向は7桁以上に渡っている。ネットワークの幅や深さ など、他のアーキテクチャの詳細は、広い範囲ではほとんど効果がない。単純な方程式は、オーバーフィッティングのモデル/データセットサイズへの依存性と、学習速度のモデルサイズへの依存性を支配する。これらの関係から、固定された計算予算の最適な配分を決定することが できる。より大きなモデルはよりサンプル効率が高く、最適な計算効率の良い学習には、非常に大きなモデルを比較的少ない量のデータで学習し、収束するまでに大幅に停止させる。
## 1. Introduction