[[2020__arXiv__Scaling Laws for Neural Language Model]]で報告された[[notes/data-science/LLM]]の法則。 - [[Transformer]]の性能はたった3つの変数のべき乗則に支配されている - パラメータ数N・データセットサイズD・計算予算Cを変数としたべき乗則(Power Law)に従う - 例えば,他の2変数がボトルネックにならない場合,パラメータ数を2倍にすると性能は2のべき乗倍に ## 参考 - [OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ](https://deeplearning.hatenablog.com/entry/scaling_law)