モデル崩壊 - yuuk1's Digital Garden

# モデル崩壊（Model Collapse） AI が生成したコンテンツがウェブに蓄積し、次世代モデルの訓練データとして混入する反復サイクルによって、モデルの **出力分布が収縮・均質化し性能が劣化**する現象。Shumailov+ Nature 2024 が定義した。 ## 定義第 $k$ 世代モデル $M_k$ が生成した出力を訓練データとして第 $k+1$ 世代モデル $M_{k+1}$ を訓練する反復において: 1. **確率的消失**: 低頻度のデータは世代 $k$ でサンプルされなければ第 $k+1$ 世代以降に復活しない 2. **分布収縮**: 訓練分布が真の分布の凸包内側に向かって収縮し続ける 3. **不可逆性**: 一度消えた表現・知識は自己生成データのみでは回復不可能 ## 多様性喪失のメカニズム ### デコーディングによる平準化貪欲デコーディング（greedy decoding）は常に最高確率トークンを選択するため、真の分布より遥かに狭い範囲にしか到達しない。例: 本来 15% で発生しうる関西弁表現が、貪欲デコーディングでは 0% になりうる。 ### フィルタリングによるマイノリティ淘汰品質フィルタリングは境界値付近の多様な表現を系統的に除去する。スコア 80 点の標準的出力が 79 点の独自的出力に常に勝つため、分布の裾野が削られ続ける。 ### ベンチマークとの解離ベンチマーク指標が改善しながら多様性は失われるという **逆説** が生じる。「品質向上」に見えるスコア改善が、実際には分布の均質化を反映している場合がある。 ## 数理的背景（π²/6 の原理）過去データを全世代分累積することで損失増加を抑制できる。線形モデルでの理論的上界: $\text{余分な損失} \leq \pi^2/6 \approx 1.645 \text{ 倍}$ この上界は無限等比数列の和 $\sum_{k=1}^{\infty} 1/k^2 = \pi^2/6$ から導かれる（Source: [[joisino-モデル崩壊と多様性-2026]]）。 ## 人間への波及効果 AI 生成データの多様性収縮は、AI 利用者の思考・表現にも影響する: 1. **語彙の収束**（Yakura+ Max Planck 2024）: ChatGPT 登場後に「delve」など GPT 特有語が人間の発話に有意増加 2. **意見の中立化**（Abdulhai+ DeepMind 2026）: LLM 多用グループで中立的回答が 70% 増加 AI の多様性縮小 → 人間の思考均質化という **二段階カスケード**。 ## 品質と多様性のトレードオフ「AI が 80 点の方法を 1 通り知るのに対し、人類は 100 通り知っている」（佐藤竜馬）。スケーリングによる品質向上は多様性維持と必ずしも両立しない。現代モデルは「人類全体の多様性を内包するには小さすぎる」。 ## 緩和策と限界 | 手段 | 効果 | 限界 | |------|------|------| | 過去データ全量累積 | 損失増加を π²/6 倍に抑制 | データ蓄積コストが増大 | | 多様プロンプト設計 | 内在能力の引き出し | モデル容量の有限性で根本解決にならない | | 人間による創作継続 | 多様性の源泉を維持 | AI 利用拡大と逆行 | スケーリングのみでは解決不可能であり、人間が多様なコンテンツをつくり続けることが根本的な解決策。 ## 関連研究 - Shumailov+ 2024（Nature）— モデル崩壊の中核論文（定義・証明） - 幡谷ら ICCV 2023（理研）— 実証研究 - Yakura+ 2024（Max Planck Institut）— 人間語彙への影響 - Abdulhai+ 2026（DeepMind）— 思考中立化の実験的検証 ## ソース - [[joisino-モデル崩壊と多様性-2026]] — 概念解説記事（佐藤竜馬、2026-06-22）