事前学習目的設計 - yuuk1's Digital Garden

# 事前学習目的設計 ## 定義事前学習目的設計(Pretraining Objective Design)は、言語モデルが大規模コーパスで学ぶべき目的関数の選択と設計である。代表的な系統は次の 3 つに分類される。 - **自己回帰型(autoregressive)**: 左から右への次トークン予測(GPT 系統)。長文生成と少数事例学習に強い一方、NLU では文脈の右側情報を扱えない欠点を持つ。 - **自己符号化型(autoencoding)**: マスク言語モデル(BERT 系統)。双方向の文脈を捉え NLU に強いが、生成タスクには直接適用しにくい。 - **エンコーダ-デコーダ型(encoder-decoder)**: 条件付き生成(T5、BART)。NLU・生成の両方に適用可能だが、パラメータ効率(エンコーダとデコーダの両方を要する)で劣る。 [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling|GLM]] の [[自己回帰空白埋め]] は、これら 3 系統のいずれもが「全 NLU タスクは生成タスクである(`All NLP tasks are generation tasks` — [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] Figure 1)」という観点から、単一目的関数で 3 系統のタスク種をすべて扱える設計を提案した。 (Source: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] §1) 現代の大規模 LLM(数百 B 規模 MoE)では、事前学習の目的関数自体は標準的な次トークン予測に収束する傾向があるが、データ混合・カリキュラム・スパン破壊の補助目的の使い方など、より広い意味での事前学習設計が研究の中心となっている。 ## 横断的知見 - (本概念は単一ソースに依拠。GPT/BERT/T5 各系統の比較研究や、現代の MoE LLM 系統の技術報告が複数集まったら横断的知見を積み増す) ## 未解決の問い - 「Encoder-Decoder か Decoder-Only か」「Span Corruption か Next-Token Prediction か」というアーキテクチャ・目的関数選択は、現代の数百 B〜兆規模 LLM では Decoder-Only + Next-Token に収束しつつあるが、コーディング・数学・推論等のタスク別では他の目的関数が優位な可能性が残る - 事前学習目的関数の差異が後段の RL / instruction tuning 後の最終性能にどれだけ転移するかは、訓練コストの大きさから直接比較が稀 ## 関連 - ソース: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] - 概念: [[言語モデル事前学習]] / [[自己回帰空白埋め]] / [[スパン破壊]] / [[Transformer]] - エンティティ: [[Tsinghua University]] ## 出典 - [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]](§1 Introduction、Figure 1)