自己回帰空白埋め - yuuk1's Digital Garden

# 自己回帰空白埋め ## 定義自己回帰空白埋め(Autoregressive Blank Infilling)は、[[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling|GLM]] が導入した事前学習目的関数である。入力テキストから複数のスパン(連続したトークン列)をマスクして取り除き、残った Part A(文脈)を双方向に符号化しつつ、取り除かれた Part B(スパン群)を自己回帰的に再構成する。各スパンは順序をシャッフルしてから先頭に `[START]` トークン、末尾に `[END]` トークンを付けて自己回帰生成の対象とする。マスクするスパン長と数を変えるだけで NLU・条件付き生成・非条件付き生成のいずれの事前学習にも適用できる単一目的関数を実現した点が新しい。 (Source: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] §2) T5 の Span Corruption(エンコーダ-デコーダ構造でスパンをマスクし、デコーダで複数スパンを sentinel トークン区切りで生成)を、単一の Transformer 内で 2 種類のアテンションマスク(Part A は双方向、Part B は左方向のみ)に統合した変種と位置付けられる。 ## 横断的知見 - (本概念は GLM 単一ソースに依拠しているため、複数ソースの突き合わせで見える観察は今のところ存在しない。後続の同種目的関数(UL2 等)や派生研究が wiki に加わったら、ここに積み増す) ## 未解決の問い - 自己回帰空白埋めはマスクスパン長の分布(Poisson(λ=3))に依存して挙動が変わるが、ドメイン別(コード・数学・自然言語)の最適スパン長分布は未検証 - 2D 位置符号化(原文中位置 + スパン内位置)とスパンシャッフリングの寄与をアブレーションで分離した結果は[[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] にあるが、より大きなスケール(数十 B〜数百 B パラメータ)での同設計選択の寄与は再検証が必要 - GLM 起点の系統([[@2025__arXiv__GLM-4.5 - Agentic Reasoning and Coding Foundation Models]]・[[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] 等)が自己回帰空白埋めをどの程度継承しているか(現代の MoE LLM 訓練でこの目的関数がどう変化したか)は技術報告では明示されていない ## 関連 - ソース: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] - 概念: [[2D位置符号化]] / [[スパン破壊]] / [[事前学習目的設計]] / [[言語モデル事前学習]] / [[Transformer]] - エンティティ: [[Zhengxiao Du]] / [[Zhilin Yang]] / [[Jie Tang]] / [[Tsinghua University]] ## 出典 - [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]](§2 GLM Pretraining)