# 文脈自由文法
## 定義
文脈自由文法(Context-Free Grammar, CFG)とは、開始記号からはじめて生成規則(例: `[文] → [名詞句] [動詞句]`)に沿って非終端記号を終端記号(単語)に置換していく形式文法のクラスである。プログラミング言語の構文解析(パーサ)や自然言語処理の初歩的なモデルとして広く使われる。(Source: [[joisino-言語モデルの物理学-2025]])
[[Physics of Language Models]] Part 1("Learning Hierarchical Language Structures"、arXiv:2305.13673)では、CFG の 2 つの重要な特性——**曖昧性**(同一トークン "saw" が動詞にも名詞にもなる)と**長距離依存**(節を挟んで離れた要素間の一致)——が LLM によって習得できるかを検証するためのコントロールされた実験基盤として用いられた。(Source: [[joisino-言語モデルの物理学-2025]])
## LLM による CFG の学習
### 成功した習得
- 高度に曖昧で長距離依存を持つ CFG から生成した長さ 512 のテキストを 960 万個で訓練すると、LLM は 99%+ の確率で正しい文法のテキストを生成する。
- **真の確率分布との KL ダイバージェンスが小さい**——単に「当たり障りのない」選択をするのでなく、文法の全パターンを逃げなしに習得している。
### 内部表現
- 線形プロービングで、出力トークンの元となる非終端記号([名詞句]・[動詞句] 等)を正確に推定できる——LLM は曖昧なトークンを出力しながら、頭の中ではその役割を把握している。
- アテンションパターンがマージ可能な区間の右端どうしに有意に強い注意を向ける——**動的計画法的な振る舞い**の証拠。CYK(Cocke-Younger-Kasami)アルゴリズムのような区間マージを内部で行っていると考えられる。
(Source: [[joisino-言語モデルの物理学-2025]])
### ノイズ耐性
- 完璧なデータのみで訓練するとノイズに弱い。
- 訓練データの一部(例: 15%)にノイズを含めると、テスト時のノイズにも耐性が生まれる。
- ただし正しい文のみを出力させるには低温度(例: τ=0.1)が必要。
(Source: [[joisino-言語モデルの物理学-2025]])
## 横断的知見
- **CFG 習得は "mechanistic interpretability" の実証的根拠を与える**: LLM が動的計画法的パターンを内部で実行しているという観察は、[[機構的解釈性]] の研究(注意ヘッドの機能分化等)と同方向の知見である。(Source: [[joisino-言語モデルの物理学-2025]]、[[joisino-LLMアテンションと外挿-2025]])
## 未解決の問い
- CFG ではなく文脈依存文法(CSG)や再帰下降型の文法も同様に学習できるか?
- LLM が内部で実行しているアルゴリズムが CYK であることを、より直接的に検証できるか?
- CFG 習得で確認された動的計画法的振る舞いは、[[Chain-of-Thought Prompting]] のような明示的な推論ステップとどのように対応するか?
## 関連
- ソース: [[joisino-言語モデルの物理学-2025]]
- 研究コンセプト: [[Physics of Language Models]]
- 研究者: [[Zeyuan Allen-Zhu]]
- 関連概念: [[機構的解釈性]] / [[アテンションヘッド]] / [[Chain-of-Thought Prompting]]
## 出典
- [[joisino-言語モデルの物理学-2025]](Physics of Language Models Part 1)