大規模言語モデルの驚異と脅威

[[notes/data-science/LLM]]の最近の発展について学術的に整理されたスライド資料。 2022年度AIPシンポジウム成果報告会の特別講演。 [大規模言語モデルの驚異と脅威 - Speaker Deck](https://speakerdeck.com/chokkan/20230327_riken_llm) - 言語モデル - 単語（トークン）列の生成確率を推定する - テキストの続きを予測できる - [[条件付き分布|条件付き確率]]による言語モデル - 先頭から単語を順に生成する条件付き確率の積で表現する - 条件付き確率を単語列の出現頻度から推定する - 単語の出現回数は大規模なコーパスで計測する - 2つの問題 - データスパースネス問題 - 類義語問題 - nグラム言語モデル - 条件付き確率の条件部をn-1個前までの単語で打ち切る - データスパースネス問題を回避 - cons - 長距離依存を扱いにくい - [[RNN]]型ニューラル言語モデル (2010) - 埋め込み表現（単語ベクトル）による類義語・関連語を考慮できる - cons - 固定長のベクトルだけでは情報を覚えきれない -> 長距離依存を実質的には扱えない - ネットワークが単語位置方向に深くなるため、学習時の勾配爆発・消失 - ニューラル機械翻訳（系列変換モデル） 2014~ - 機械翻訳モデルと言語モデルのアーキテクチャは似ている - [[Attention機構|注意機構]]により、固定長のベクトルだけでなく、入力単語の情報を柔軟に参照し、長い入力文の翻訳精度向上 (2015) - cons - 長距離依存を考慮しにくい - ![[Pasted image 20230328162424.png|600]] - [[Transformer]] (2017) - 自己注意だけで単語間の情報を統合するモデル - 位置エンコーディング、マルチヘッド注意、残差結合、層正規化 - pros - 単語間の情報の統合コストが距離によらない - 並列処理しやすい - ![[Pasted image 20230328162435.png|600]] - [[GPT]] - [[Transformer]]の生成部（デコーダー）を言語モデルとして学習したもの（事前学習） - [[ファインチューニング]] - 所望のタスクを解けるように事前学習済みのモデルを調整すること。 - 2018年ごろから - cons - タスク固有の層をモデルに追加する必要がある - 大規模なモデルではコストが高い - プロンプト言語モデルだけでタスクを汎用的に解く - プロンプトを工夫すれば、言語モデルのアーキテクチャを変更せずにタスクが解けるのでは？ - 単語予測（通常の言語モデル） - タスクの説明によるプロンプト（zero-shot） - タスクの説明と解き方の例を連結したプロンプト（few-shot） - pros/cons - モデル変更不要 - 言語モデルが汎用的に振る舞うようにみえる - ファインチューニングと比べると正解率が低い - 言語モデルの超大規模化 - [[LLMのScaling Laws]] - Instruction Tuning (FLAN) 2022 - 言語モデルの構成を変えずに、複数のタスクでファインチューニング - タスクごとにテンプレートを用意し、（プロンプト + 出力）の形式の学習データに変換して、言語モデルとして追加学習 - pros - タスクをzero-shotで解く実験では[[GPT-3]]を凌駕 - 思考の連鎖（Chain of Thought） 2022 - 回答例をモデルに与えるときに「考え方」も含める - pros - 数学問題、常識推論、記号推論などの性能が大幅改善 - 人間のフィードバックに基づく[[強化学習]] 2020 - [[RLHF]] - 言語モデルの目的関数（尤度最大化）と人間が望む出力との溝を強化学習で埋める - InstructGPT 2022 - [[ChatGPT]]の基となるモデル - [[RLHF]]により調整 ![[Pasted image 20230328164437.png|600]] - 大規模言語モデルの脅威 - 広範囲の分野の転換点 - hallucination（嘘） - バイアス - 個人情報の暴露 - 悪用 - ハードル - 大量の計算資源と人的資源 - GPT-3の学習コストは460万ドル - RLHFの人間の作業時間は数千時間 - InstructGPTでは、40人の作業者が数万件の事例をアノテーション