LLMのScaling Laws - yuuk1's Digital Garden

[[2020__arXiv__Scaling Laws for Neural Language Model]]で報告された[[notes/data-science/LLM]]の法則。 - [[Transformer]]の性能はたった3つの変数のべき乗則に支配されている - パラメータ数N・データセットサイズD・計算予算Cを変数としたべき乗則（Power Law）に従う - 例えば，他の2変数がボトルネックにならない場合，パラメータ数を2倍にすると性能は2のべき乗倍に ## 参考 - [OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ](https://deeplearning.hatenablog.com/entry/scaling_law)