[[2020__arXiv__Scaling Laws for Neural Language Model]]で報告された[[notes/data-science/LLM]]の法則。
- [[Transformer]]の性能はたった3つの変数のべき乗則に支配されている
- パラメータ数N・データセットサイズD・計算予算Cを変数としたべき乗則(Power Law)に従う
- 例えば,他の2変数がボトルネックにならない場合,パラメータ数を2倍にすると性能は2のべき乗倍に
## 参考
- [OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ](https://deeplearning.hatenablog.com/entry/scaling_law)