Physics of Language Models - yuuk1's Digital Garden

# Physics of Language Models ## 定義 Physics of Language Models（言語モデルの物理学）とは、[[Zeyuan Allen-Zhu]]（[[Meta FAIR]]）が提唱した研究コンセプトである。博物学的な「あのモデルはこうだ」という知識を深めるのでなく、17 世紀のケプラー・ニュートンのように**LLM の普遍法則**を発見することを目標とする。 2 つの方法論的特徴を持つ: 1. **コントロールされたデータセット**でスクラッチから訓練する——ウェブコーパスのノイズを排し、真空での実験に相当する条件を設ける。 2. **内部状態の精査**——線形プロービング（内部状態を入力とする線形モデルで解けるタスクを調べる）や低ランクプロービング（LoRA 付加で解けるタスクを調べる）で、LLM が「頭の中で」何を計算しているかを直接調べる。 2025 年 3 月時点で 6 本の論文が公開されており、3 章に分類される: (1) 階層的言語構造、(2) 小学校の算数、(3) 知識。(Source: [[joisino-言語モデルの物理学-2025]]) ## 主要な発見の要約 | 章 | 論文 | 一言まとめ | |---|---|---| | 1 | Part 1 (arXiv 2023) | LLM は複雑な[[文脈自由文法]]を正確に学習し、頭の中で動的計画法を使う | | 2a | Part 2.1 (ICLR 2025) | 算数の問題を最短経路で解き、誤答前から内部状態で誤りを認識している | | 2b | Part 2.2 (ICLR 2025) | ミスの自己訂正は事前学習段階で組み込む必要がある（LoRA ではできない） | | 3a | Part 3.1 (ICML 2024) | 知識の貯蔵と抽出は別スキル——貯蔵していても抽出できないことがある | | 3b | Part 3.2 (ICLR 2025) | [[知識操作]]（変換・比較・逆引き）には CoT が必要 | | 3c | Part 3.3 (ICLR 2025) | パラメータ 1 つあたり約 2 ビットの知識を記憶する——[[知識容量スケーリング則]] | (Source: [[joisino-言語モデルの物理学-2025]]) ## 横断的知見 - **next token prediction だけで多彩なアルゴリズムが出現する**: 動的計画法・依存グラフ解析・文法規則の習得がいずれも明示的教示なしに出現する。これは [[機構的解釈性]] の研究（アテンションヘッドの機能分化など）が示すことと整合する。(Source: [[joisino-言語モデルの物理学-2025]]、[[joisino-LLMアテンションと外挿-2025]]) - **「知識の貯蔵」と「知識の操作」は独立したスキルである**: Part 3.1・3.2 が連続して示す。伝記の続きを 99% 正確に生成できても、「生まれ年は奇数か」が答えられない。訓練時の順序に依存した「ストーリーとしての記憶」と、任意の問いに答える「一問一答形式」は別物。(Source: [[joisino-言語モデルの物理学-2025]]) - **ウェブコーパスは「対照実験」を阻む**: Part 3.2 で「GPT-4 も同種の失敗をする」と示しつつも、ウェブコーパスではたまたまその問いへの答えが訓練データに含まれている可能性を排除できない。コントロールされた実験環境があってはじめて「LLM は本当に知識操作ができない」という主張が成立する。 ## 未解決の問い - 6 本の論文の発見は、現実の大規模 LLM（GPT-4・Claude 等）でも同じメカニズムで説明できるか？スケールアップによってメカニズムは変化するか？ - 事前学習で「正しい記憶の仕方」を学んだ後に、インストラクションチューニングで知識操作能力を効率よく付与する手法はあるか？ - プロービングで確認される「頭の中の認識」は LLM のすべての計算を反映しているか——線形にアクセスできない非線形な内部表現が別途存在しないか？ - 「パラメータ 1 つ約 2 ビット」則は量子化・蒸留・モデルマージ（[[モデルパラメータ算術]]）によってどう変化するか？ - 自己訂正能力を事前学習で獲得するという知見（Part 2.2）は、強化学習後訓練（RLHF・DeepSeek-R1 等）とどう接続するか？ ## 関連 - ソース: [[joisino-言語モデルの物理学-2025]] - 研究者: [[Zeyuan Allen-Zhu]] / [[Yuanzhi Li]] - 組織: [[Meta FAIR]] - 関連概念: [[知識操作]] / [[知識容量スケーリング則]] / [[文脈自由文法]] / [[機構的解釈性]] / [[スケーリング則]] / [[Chain-of-Thought Prompting]] / [[モデルパラメータ算術]] ## 出典 - [[joisino-言語モデルの物理学-2025]]（佐藤竜馬, ジョイジョイジョイ, 2025-03-24）