# 知識容量スケーリング則 ## 定義 知識容量スケーリング則(knowledge capacity scaling laws)とは、LLM が記憶できる情報量がモデルパラメータ数に比例するという経験的法則である。[[Physics of Language Models]] の Part 3.3("Knowledge Capacity Scaling Laws"、arXiv:2404.05405、ICLR 2025)が架空人物伝記のコントロール実験で実証した。(Source: [[joisino-言語モデルの物理学-2025]]) ## 主要な発見 ### パラメータ 1 つにつき約 2 ビット 人物数 1 万〜1000 万人、パラメータ数 100 万〜数億を網羅した実験で、**一貫してパラメータ 1 つあたり 2 ビットの三つ組知識**(人物名・属性名・値)を記憶するという関係が成立した。GPT-2・Llama・Mistral のいずれのアーキテクチャでも変わらず、登場地名・会社名の数を変えても変わらない。(Source: [[joisino-言語モデルの物理学-2025]]) ### 量子化の影響 - int8 量子化: 記憶容量はほぼ変わらない。int8 の理論上限はパラメータあたり 8 ビットなので、有効利用率は約 25%(next token prediction という間接的手法でここまで達成できるのは非自明)。 - int4 量子化: 記憶効率が 2 倍以上悪化。効率面では **int8 が最適**。 (Source: [[joisino-言語モデルの物理学-2025]]) ### ゴミデータの影響 - 質問応答で使わない使い捨て伝記(一度しか登場しない)を混ぜると、記憶容量が**20 倍以上悪化**する。 - 対策: 重要データの先頭に特殊トークン(例: `[wikipedia.org]`)を付けるだけで悪影響が消える。LLM は明示せずともこのトークンを「重要」と自動的に認識する。 - **事前訓練のデータ品質は記憶容量に直接・大きく影響する**。 (Source: [[joisino-言語モデルの物理学-2025]]) ### 実用的含意 - 7B モデルの容量: 約 140 億ビット——これは英語 Wikipedia の総知識量を超える。 - 必要な知識の総量がわかっているなら、必要ビット数の約 2 倍のパラメータ数を準備すれば十分。 ## 横断的知見 - **従来のスケーリング則(損失やタスク性能)に対して「記憶できる知識量」という新しい軸を追加する**: [[スケーリング則]](Kaplan et al. 2020)はクロスエントロピー損失のスケーリングを記述するが、知識容量スケーリング則は「三つ組知識を何ビット格納できるか」という直接的な情報量で測る。両者は補完的な評価軸である。(Source: [[joisino-言語モデルの物理学-2025]]、[[スケーリング則]]) ## 未解決の問い - 「2 ビット」則はテキスト以外の知識(画像・コードへの接地)でも成立するか? - 知識容量は訓練データ量(トークン数)とどのように関係するか——同じパラメータ数でもより多くのトークンで訓練すれば容量は増えるか? - ゴミデータの「使い捨て」判定はモデルがどのように行うのか——特殊トークン以外の手がかりでも機能するか? - LoRA・スパース化・知識蒸留は 2 ビット則をどう変化させるか? ## 関連 - ソース: [[joisino-言語モデルの物理学-2025]] - 研究コンセプト: [[Physics of Language Models]] - 研究者: [[Zeyuan Allen-Zhu]] / [[Yuanzhi Li]] - 関連概念: [[スケーリング則]] / [[知識操作]] / [[LLMスケーリング則]] ## 出典 - [[joisino-言語モデルの物理学-2025]](Physics of Language Models Part 3.3)