知識容量スケーリング則 - yuuk1's Digital Garden

# 知識容量スケーリング則 ## 定義知識容量スケーリング則（knowledge capacity scaling laws）とは、LLM が記憶できる情報量がモデルパラメータ数に比例するという経験的法則である。[[Physics of Language Models]] の Part 3.3（"Knowledge Capacity Scaling Laws"、arXiv:2404.05405、ICLR 2025）が架空人物伝記のコントロール実験で実証した。(Source: [[joisino-言語モデルの物理学-2025]]) ## 主要な発見 ### パラメータ 1 つにつき約 2 ビット人物数 1 万〜1000 万人、パラメータ数 100 万〜数億を網羅した実験で、**一貫してパラメータ 1 つあたり 2 ビットの三つ組知識**（人物名・属性名・値）を記憶するという関係が成立した。GPT-2・Llama・Mistral のいずれのアーキテクチャでも変わらず、登場地名・会社名の数を変えても変わらない。(Source: [[joisino-言語モデルの物理学-2025]]) ### 量子化の影響 - int8 量子化: 記憶容量はほぼ変わらない。int8 の理論上限はパラメータあたり 8 ビットなので、有効利用率は約 25%（next token prediction という間接的手法でここまで達成できるのは非自明）。 - int4 量子化: 記憶効率が 2 倍以上悪化。効率面では **int8 が最適**。 (Source: [[joisino-言語モデルの物理学-2025]]) ### ゴミデータの影響 - 質問応答で使わない使い捨て伝記（一度しか登場しない）を混ぜると、記憶容量が**20 倍以上悪化**する。 - 対策: 重要データの先頭に特殊トークン（例: `[wikipedia.org]`）を付けるだけで悪影響が消える。LLM は明示せずともこのトークンを「重要」と自動的に認識する。 - **事前訓練のデータ品質は記憶容量に直接・大きく影響する**。 (Source: [[joisino-言語モデルの物理学-2025]]) ### 実用的含意 - 7B モデルの容量: 約 140 億ビット——これは英語 Wikipedia の総知識量を超える。 - 必要な知識の総量がわかっているなら、必要ビット数の約 2 倍のパラメータ数を準備すれば十分。 ## 横断的知見 - **従来のスケーリング則（損失やタスク性能）に対して「記憶できる知識量」という新しい軸を追加する**: [[スケーリング則]]（Kaplan et al. 2020）はクロスエントロピー損失のスケーリングを記述するが、知識容量スケーリング則は「三つ組知識を何ビット格納できるか」という直接的な情報量で測る。両者は補完的な評価軸である。(Source: [[joisino-言語モデルの物理学-2025]]、[[スケーリング則]]) ## 未解決の問い - 「2 ビット」則はテキスト以外の知識（画像・コードへの接地）でも成立するか？ - 知識容量は訓練データ量（トークン数）とどのように関係するか——同じパラメータ数でもより多くのトークンで訓練すれば容量は増えるか？ - ゴミデータの「使い捨て」判定はモデルがどのように行うのか——特殊トークン以外の手がかりでも機能するか？ - LoRA・スパース化・知識蒸留は 2 ビット則をどう変化させるか？ ## 関連 - ソース: [[joisino-言語モデルの物理学-2025]] - 研究コンセプト: [[Physics of Language Models]] - 研究者: [[Zeyuan Allen-Zhu]] / [[Yuanzhi Li]] - 関連概念: [[スケーリング則]] / [[知識操作]] / [[LLMスケーリング則]] ## 出典 - [[joisino-言語モデルの物理学-2025]]（Physics of Language Models Part 3.3）