joisino-言語モデルの物理学-2025

# 言語モデルの物理学 [[佐藤竜馬]] (joisino) による 2025-03-24 付けブログ記事（ジョイジョイジョイ）。[[Zeyuan Allen-Zhu]]（Meta FAIR）が提唱した [[Physics of Language Models]] 研究プロジェクトの 6 論文を体系的に解説する。 ## Physics of Language Models とは [[Zeyuan Allen-Zhu]] が提唱したコンセプト。17 世紀のケプラー・ニュートンが行ったような**原理に基づく研究**を LLM に適用し、「LLM はなぜこう振る舞うのか」という問いに答えることを目指す。 2 つの特徴: 1. **コントロールされたデータセット**を使ってスクラッチから訓練（ウェブコーパスを使わない）。 2. **内部状態の精査**——線形プロービングや低ランクプロービング（LoRA 付加）で「頭の中で何が起きているか」を直接調べる。ベンチマーク重視の風潮（スコアを毎月更新する博物学的研究）への批判でもある。プロジェクトページ: `https://physics.allen-zhu.com/home` --- ## Part 1 — 階層的言語構造の学習 (arXiv 2023) **論文**: "Learning Hierarchical Language Structures" (arXiv:2305.13673) ### 主要結果 - 複雑な[[文脈自由文法]]（高曖昧性・長距離依存あり）をスクラッチ訓練した LLM は 99%+ の確率で正しい文法のテキストを生成できる。 - 分布距離（KL ダイバージェンス）も小さく、「逃げ」なしに全パターンを習得している。 ### 内部状態の知見 - 線形プロービングにより、出力トークン（例: "saw"）が名詞か動詞かを LLM は**頭の中で識別している**（明示的な文法知識を与えていない）。 - アテンションパターンがマージ可能な区間の右端どうしに有意に強い注意を向ける——**動的計画法的な振る舞い**が観察される。 - ノイズ含みデータで訓練するとノイズ耐性が生まれる。ただし、正しい文だけを生成させるには**低温度**が必要。 --- ## Part 2.1 — 小学校の算数と隠れた推論プロセス (ICLR 2025) **論文**: "Grade-School Math and the Hidden Reasoning Process" (arXiv:2407.20311) ### 主要結果 - 多段階算数問題データセット（同一型問題が 90 兆通り生成可能）で訓練した LLM は初見テスト問題に 99%+ の正答率を示す。 - 訓練時に見たことのない難しさ（21 ステップまで訓練 → テストは 28 ステップ以上）でも正答できた。**訓練データの知能を超えた能力の自然獲得**を示唆する。 ### 内部状態の知見 - 問題前提の入力直後、質問文が来る前の段階で、変数対の**依存グラフを頭の中で完成させている**。 - 質問文が来た瞬間、不要な変数を除いた「必要最小限の変数集合」が内部状態に現れる。 - その結果、思考の連鎖(CoT)は余計な計算ゼロで**最短経路**で解答に到達する（人間の試行錯誤とは対照的）。 - 誤答する場合、**一文字も出力していない段階**でその内部状態から誤答を予測できる。 --- ## Part 2.2 — 算数の間違いから学ぶ方法 (ICLR 2025) **論文**: "How to Learn From Mistakes on Grade-School Math Problems" (arXiv:2408.16293) ### 主要結果 - 誤った推論ステップ直後に `[BACK]` トークンを挿入した訓練データでファインチューニングすると、ミスの自己訂正能力が身につき正答率が大幅向上する。 - マスキング（誤りステップの損失除外）は不要——単純な next token prediction で十分。 - **自己訂正能力は事前学習で獲得する必要があり、LoRA ファインチューニングでは身につかない**。 ### 内部状態の知見 - 誤答出力後に約 60% の割合で「まだ計算できない」と**頭の中で後悔している**ことが確認される。 - 自己回帰モデルの自己欺瞞（Ortega+ DeepMind 2021）——発言した誤りが自己への入力となり、それを正しいと思い込むメカニズムが内部状態で裏付けられた。 --- ## Part 3.1 — 知識の貯蔵と抽出 (ICML 2024) **論文**: "Knowledge Storage and Extraction" (arXiv:2309.14316) ### 実験設定 10 万人分の架空人物伝記（名前・生年月日・出生地・大学・専攻・会社・勤務地をランダム生成）のみで LLM をスクラッチ訓練。質問応答テキストは一部の人物にのみ事前訓練時に含める。 ### 主要結果 - 伝記+質問応答テキストで訓練したモデル: テスト用人物の Q&A に精度 86.6% で正答。 - 伝記のみで事前訓練後に Q&A でインストラクションチューニングしたモデル: 精度 10% 未満。 - **知識は内部に貯蔵されている（伝記続きを 99% 生成できる）が、抽出できない**。 ### データ増強の効果 - プロフィールの提示順をシャッフルした 5 種類の伝記で訓練すると、「名前→勤務地」が直接アクセスできるようになり Q&A 精度が 96.6% に向上。 - **「いつ抽出されるか分からないプレッシャー」を与えることで、人物名だけから知識をいつでも取り出せるようになる。** - 一部の人物のみデータ増強しても、他の人物にも汎化する——「記憶の正しい仕方」を学べば応用できる。 --- ## Part 3.2 — 知識操作 (ICLR 2025) **論文**: "Knowledge Manipulation" (arXiv:2309.14402) 「知識操作(knowledge manipulation)」については[[知識操作]]ページを参照。 ### 主要結果 - 生年月日が "October 2, 1996" の形式で記憶されている場合、「生まれ年は？」(→ 1996)と問うと精度 20% 程度に落ちる——**訓練時の順序でしか抽出できない**。 - 偶数/奇数判定、比較（どちらが早いか）のような**知識操作タスクは思考の連鎖(CoT)なしには解けない**。 - 逆検索（生年月日→人物名）は CoT でも困難——「A→B が取り出せても B→A は取り出せない」という非対称律が成立。 - GPT-4 でも同種の失敗が観察される（「ジョー・バイデンの生まれ年は奇数か？」等）。 --- ## Part 3.3 — 知識容量スケーリング則 (ICLR 2025) **論文**: "Knowledge Capacity Scaling Laws" (arXiv:2404.05405) 「知識容量スケーリング則」については[[知識容量スケーリング則]]ページを参照。 ### 主要結果 - **パラメータ 1 つにつき約 2 ビットの情報を記憶できる**。GPT-2・Llama・Mistral いずれのアーキテクチャでも一貫して成立。 - int8 量子化: 記憶容量はほぼ変わらない（理論上限の 25% 弱を有効活用）。 - int4 量子化: 記憶効率が 2 倍以上悪化。 - ゴミデータ混入: パラメータあたり記憶容量が 20 倍以上悪化する。 - **簡単な対策**: ゴミデータでない重要データの先頭に特殊トークン（例: `[wikipedia.org]`）を付けるだけで悪影響が解消される。LLM は明示せずともこれを「重要」と認識する。 - 7B モデルの理論容量は英語 Wikipedia 全体を超える。 --- ## 横断的知見（記事から見える） - **next token prediction だけでアルゴリズム的能力が出現する**: 動的計画法・依存グラフ解析・最短経路探索がいずれも明示的に教えることなく出現する。 - **LLM の能力を正しく測るには内部状態を調べる必要がある**: 出力の正否だけでは実は何が起きているかが分からない（自己欺瞞の例が典型）。 - **知識の貯蔵と操作は独立**: 伝記を完璧に暗記していても、知識の並べ替え・比較・逆引きは別スキルとして獲得が必要。 - **事前学習でのデータ品質と多様性が決定的**: ゴミデータ混入による 20× の容量劣化、データ増強による記憶形式の改善は、現実の事前学習データキュレーションに直接示唆を与える。 ## 関連ページ - [[佐藤竜馬]] — 著者 - [[Zeyuan Allen-Zhu]] — 研究プロジェクト提唱者 - [[Yuanzhi Li]] — 共著者（Physics of LLM シリーズ） - [[Meta FAIR]] — 研究機関 - [[Physics of Language Models]] — 研究コンセプト - [[知識操作]] — Part 3.2 概念 - [[知識容量スケーリング則]] — Part 3.3 概念 - [[文脈自由文法]] — Part 1 で使用 - [[機構的解釈性]] — プロービング手法の文脈 - [[スケーリング則]] — 知識容量のスケーリングと接続 - [[Chain-of-Thought Prompting]] — 知識操作での CoT の役割