言語モデル - yuuk1's Digital Garden

[[2023__arXiv__A Survey of Large Language Models]] 式(4)より。 - トークン列$x = \{x_1,...,x_n\}$ - A general training objective is to maximize the following likelihood: $\mathcal{L}_{L M}(\mathbf{x})=\sum_{i=1}^n \log P\left(x_i \mid x_{<i}\right)$