## Memo
本サーベイでは、LLMの4つの主要な側面、すなわち、事前訓練、適応チューニング、利用、および能力評価に焦点を当てる。
## Abstract
言語とは本来、文法規則に支配された人間の表現の複雑で入り組んだシステムである。そのため、言語を理解・把握するための有能なAIアルゴリズムを開発することは、大きな課題となっている。その主要なアプローチとして、過去20年間、言語理解や言語生成のための言語モデリングが広く研究され、統計的言語モデルからニューラル言語モデルへと発展してきた。近年では、大規模なコーパスに対して[[Transformer]]モデルを事前学習させた事前学習言語モデル(PLM)が提案され、様々なNLPタスクの解決に強い能力を示しています。研究者は、モデルのスケーリングが性能向上につながることを発見したので、モデルサイズをさらに大きくすることでスケーリング効果をさらに研究している。興味深いことに、パラメータスケールがあるレベルを超えると、これらの拡大言語モデルは大幅な性能向上を達成するだけでなく、小規模言語モデルにはない特別な能力を示すようになります。パラメータ規模の違いを識別するために、研究コミュニティでは、有意な大きさのPLMを大規模言語モデル([[notes/data-science/LLM]])と呼ぶことにしています。近年、LLMの研究は学界と産業界の双方で大きく進展しており、その中でもChatGPTの登場は社会的に広く注目されている。LLMの技術的進化は、AIコミュニティ全体に重要な影響を与えつつあり、AIアルゴリズムの開発方法と利用方法を革新することになるだろう。本サーベイでは、LLMの背景、重要な知見、主要な技術を紹介することで、LLMの最近の進歩をレビューする。特に、LLMの4つの主要な側面、すなわち、事前訓練、適応チューニング、利用、および能力評価に焦点を当てる。さらに、LLMの開発に利用可能なリソースを要約し、将来の方向性のために残された課題について議論する。
## 1. Introduction