# 知識容量スケーリング則
## 定義
知識容量スケーリング則(knowledge capacity scaling laws)とは、LLM が記憶できる情報量がモデルパラメータ数に比例するという経験的法則である。[[Physics of Language Models]] の Part 3.3("Knowledge Capacity Scaling Laws"、arXiv:2404.05405、ICLR 2025)が架空人物伝記のコントロール実験で実証した。(Source: [[joisino-言語モデルの物理学-2025]])
## 主要な発見
### パラメータ 1 つにつき約 2 ビット
人物数 1 万〜1000 万人、パラメータ数 100 万〜数億を網羅した実験で、**一貫してパラメータ 1 つあたり 2 ビットの三つ組知識**(人物名・属性名・値)を記憶するという関係が成立した。GPT-2・Llama・Mistral のいずれのアーキテクチャでも変わらず、登場地名・会社名の数を変えても変わらない。(Source: [[joisino-言語モデルの物理学-2025]])
### 量子化の影響
- int8 量子化: 記憶容量はほぼ変わらない。int8 の理論上限はパラメータあたり 8 ビットなので、有効利用率は約 25%(next token prediction という間接的手法でここまで達成できるのは非自明)。
- int4 量子化: 記憶効率が 2 倍以上悪化。効率面では **int8 が最適**。
(Source: [[joisino-言語モデルの物理学-2025]])
### ゴミデータの影響
- 質問応答で使わない使い捨て伝記(一度しか登場しない)を混ぜると、記憶容量が**20 倍以上悪化**する。
- 対策: 重要データの先頭に特殊トークン(例: `[wikipedia.org]`)を付けるだけで悪影響が消える。LLM は明示せずともこのトークンを「重要」と自動的に認識する。
- **事前訓練のデータ品質は記憶容量に直接・大きく影響する**。
(Source: [[joisino-言語モデルの物理学-2025]])
### 実用的含意
- 7B モデルの容量: 約 140 億ビット——これは英語 Wikipedia の総知識量を超える。
- 必要な知識の総量がわかっているなら、必要ビット数の約 2 倍のパラメータ数を準備すれば十分。
## 横断的知見
- **従来のスケーリング則(損失やタスク性能)に対して「記憶できる知識量」という新しい軸を追加する**: [[スケーリング則]](Kaplan et al. 2020)はクロスエントロピー損失のスケーリングを記述するが、知識容量スケーリング則は「三つ組知識を何ビット格納できるか」という直接的な情報量で測る。両者は補完的な評価軸である。(Source: [[joisino-言語モデルの物理学-2025]]、[[スケーリング則]])
## 未解決の問い
- 「2 ビット」則はテキスト以外の知識(画像・コードへの接地)でも成立するか?
- 知識容量は訓練データ量(トークン数)とどのように関係するか——同じパラメータ数でもより多くのトークンで訓練すれば容量は増えるか?
- ゴミデータの「使い捨て」判定はモデルがどのように行うのか——特殊トークン以外の手がかりでも機能するか?
- LoRA・スパース化・知識蒸留は 2 ビット則をどう変化させるか?
## 関連
- ソース: [[joisino-言語モデルの物理学-2025]]
- 研究コンセプト: [[Physics of Language Models]]
- 研究者: [[Zeyuan Allen-Zhu]] / [[Yuanzhi Li]]
- 関連概念: [[スケーリング則]] / [[知識操作]] / [[LLMスケーリング則]]
## 出典
- [[joisino-言語モデルの物理学-2025]](Physics of Language Models Part 3.3)