スパン破壊 - yuuk1's Digital Garden

# スパン破壊 ## 定義スパン破壊(Span Corruption)は、連続したトークン列(スパン)単位で入力をマスクし、モデルにマスクされたスパンの内容を予測させる事前学習の枠組みである。BERT の単トークンマスクと比べて、テキストの自然な単位(句・節)を扱える点と、ダウンストリームの生成系タスクへの転移が良い点が利点とされる。 [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling|GLM]] の [[自己回帰空白埋め]] は、Poisson(λ=3)分布から長さを引いて入力長の 15% をマスクするスパン破壊を採用する。複数スパンの順序をシャッフルしてから自己回帰生成することで、スパン間の依存関係を学習できる。 (Source: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] §2) T5 の Span Corruption はエンコーダ-デコーダ構造で複数スパンを sentinel トークン区切りで生成する。SpanBERT は単一スパンの内容を双方向に予測する。GLM は単一の Transformer 内で双方向(Part A)と左方向(Part B)のアテンションマスクを共存させる点で T5 と異なる。 ## 横断的知見 - (本概念は GLM 起点の単一ソースに依拠。T5・SpanBERT・UL2 等の同系統手法が wiki に加わったら横断的知見を積み増す) ## 未解決の問い - スパン長分布(Poisson(λ=3) vs Uniform vs 長尾分布)と事前学習効率・下流タスク性能の関係はモデルスケールに応じて変わるが、現代の数百 B 規模 MoE LLM ではほとんど検証されていない - スパン破壊ベース事前学習は次トークン予測ベース事前学習と比べて指示追従能力・推論能力の獲得効率がどう違うかは大規模での比較研究が乏しい ## 関連 - ソース: [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]] - 概念: [[自己回帰空白埋め]] / [[事前学習目的設計]] / [[2D位置符号化]] / [[Transformer]] - エンティティ: [[Tsinghua University]] ## 出典 - [[@2022__ACL__GLM - General Language Model Pretraining with Autoregressive Blank Infilling]](§2 GLM Pretraining)