# アンナ・カレーニナの法則と真理に収束していくモデルたち
出典: [ジョイジョイジョイ](https://joisino.hatenablog.com/entry/anna) / 佐藤竜馬 / 2025-05-20
## 概要
機械学習における「アンナ・カレーニナの法則」とプラトン的表現仮説(Platonic Representation Hypothesis)を軸に、なぜ異なるアーキテクチャ・訓練方法・モダリティを持つモデルが、性能が高まるにつれて似た表現を学習するのかを解説した技術記事である。理論的な説明(暗黙的正則化・暗黙的カリキュラム・反変原理)と実用上の示唆(マルチモーダル訓練・モデル縫合・アンサンブルの限界)を包括的に論じる。
## アンナ・カレーニナの法則(機械学習版)
トルストイの小説冒頭「幸せな家族はどれも似ているが、不幸な家族にはそれぞれの不幸がある」に由来する原理。機械学習への適用は Bansal et al.(NeurIPS 2021)に端を発する。
> 性能の良いモデルはどれもみな同じような表現をもっているが、性能の悪いモデルにはそれぞれ性能の悪い表現がある。
この現象はモダリティ間にも拡張される。テキストのみで訓練された BERT の埋め込みが人間の色覚知覚と整合することが Abdou et al.(CoNLL 2021)で示されている。
## プラトン的表現仮説
**Huh et al. (ICML 2024, arXiv: 2405.07987)** の提唱した仮説。
> テキストや画像といったデータは根底にある「この世の真理」の表出である。テキスト埋め込みモデルも画像埋め込みモデルも、性能が向上するにしたがって「この世の真理」の統計モデルに収束する。
「この世の真理」を表現することに成功したモデルが高性能になり、逆に性能を高めるためには「この世の真理」に近づく必要があるため、良いモデルの表現はどれも真理の「写し鏡」になるという論理構造を持つ。
論文では78個の視覚モデル(ResNet・ViT 等、異なる訓練方式・データセット)を評価し、VTAB 性能が高いモデルほど表現どうしが互いに類似することを確認した。言語モデルについても、next token prediction の性能が高まるにつれて視覚モデルとの表現類似度が向上することが幅広い設定で確認されている。
## 表現類似度の測定方法
### モデル縫合(stitching)
Lenc & Vedaldi(CVPR 2015)が提唱。訓練済みモデル A の中間層出力を単純な縫合層(線形層など)でモデル B の中間層入力に接続し、縫合層のみを訓練する。高性能を回復できれば両モデルの表現に整合性があると見なす。
Bansal et al. は同じアーキテクチャの異なるランダムシードモデルでも、教師あり学習対自己教師あり学習の異なる訓練手法モデルでも、うまく縫合できることを確認した(ランダム初期化モデルとは縫合不可)。
異なるモダリティ間でも縫合が成功することが確認されている:
- Merullo et al.(ICLR 2023): 視覚モデルの埋め込みを言語モデルに縫合
- LLaVA(Liu et al., NeurIPS 2023): 凍結視覚モデルを凍結言語モデルに縫合
- NExT-GPT(Wu et al., ICML 2024): テキスト・画像・音声・動画モデルを縫合
### 近傍一致度
ペアデータ$(x_i, y_i)$を用意し、各モデルの埋め込み空間での上位 K 件の近傍集合の一致度を類似度とする。Huh et al. はこの基準を採用した。
## 反例は構築できる
訓練済みモデルの各層に複雑な変換 $f$ と逆変換 $f^{-1}$ を挿入すれば、高性能でありながら整合性のない表現を持つモデルを人工的に構築できる。しかし「普通に」勾配法で訓練すると、そのようなモデルは得られない。
## 収束の理由: 3つの原理
### 1. 暗黙的正則化(implicit regularization)
明示的な正則化なしでも、訓練アルゴリズムの特性により自動的に単純なパラメータが得られる現象。
- 訓練は小さいノルムの状態から出発し、ノルムが増えるにつれて損失が下がり、最初に出会った良い解で停止する
- ノルムが小さい = 表現できる関数が限られる = 単純な解 という関係
- パラメータのランク(Arora et al., NeurIPS 2019)・平坦性(Cohen et al., ICLR 2021)・決定境界マージン(Soudry et al., JMLR 2018)など複数指標で同様の現象が確認・証明されている
### 2. 暗黙的カリキュラム(implicit curricula)
Wu et al.(ICLR 2021)が示した現象。明示的なカリキュラムを行わず、ランダムな順序で訓練例を示しても、モデルは自然と簡単な例から順番に学習していく。
- FC・VGG11・VGG16・ResNet18・ResNet50・WideResNet・DenseNet・EfficientNet など広範なアーキテクチャで確認(強力なモデルは示し合わせたように同じ順番で学習)
- 訓練の過程でまず単純な仮説でおおよそ説明できるようになり、徐々に複雑な仮説を学習していくプロセスを裏付ける
- **LLM 訓練のように 1 エポックしか回さない場合はカリキュラムが重要**。多エポック訓練では自然に補完されるためカリキュラムの意義が薄い
### 3. 反変原理(Contravariance Principle)
Cao et al.(Cognitive Systems Research 2024, arXiv: 2104.01489)の原理。困難な目標が強い制約を与えることで、ありうるモデル構造の多様性が減少する。基盤モデルが多様なタスクを同時に解けるようになることを求められると、全タスクを満たす表現は自ずと絞られる。
段ボールへの荷物の詰め込みに喩えられる: 一部の荷物しか詰めなければ詰め方は多様だが、全部詰め込もうとすると「これはここに置くしかない」という制約が生まれ、自然と誰でも似た詰め方になる。
## 実用上の意義
### マルチモーダル訓練の根拠
プラトン的表現仮説が正しいなら、N 枚の画像と M 文のテキストが手元にある場合、最高の視覚モデルを得るには N 枚の画像だけで訓練するより M 文のテキストも併用することが有効である。両モダリティが同じ「プラトン的表現」に収束しているからである。人間でも先天性全盲者が後に視覚を得たとき対応関係を急速に学習できた報告がある(Held et al., Nature Neuroscience 2011)。
### モデル縫合・マージの実用化
表現の整合性が成り立つなら、異なるモデルのマージや、他モデル用に訓練した LoRA の流用などが可能になる。性能向上とともに表現の整合性が高まるため、今後縫合によるマルチモーダルモデル作成はますます容易かつ効果的になると予測される。
### アンサンブルの限界の説明
強力なモデルどうしはすでに表現が似ているため、アンサンブルで補い合う余地が小さい。弱いモデルはそれぞれ異なる欠点を持つため、アンサンブル効果が大きい。ただし「プラトン的表現」への異なるアプローチの中点がより真理に近いという意味でアンサンブルの効果が出る可能性もある。
## 限界
- モダリティが違えば表せない表現がある(素数の背理法をテキストで記述するのは容易だが絵では困難; ホラー映画のジャンプスケアの恐怖はテキストで再現できない)
- 「プラトン的表現」そのものには到達できない可能性が高く、結局モダリティごとの個性は残る
## 参照論文
| 論文 | 内容 |
|---|---|
| Bansal et al., NeurIPS 2021 ([arXiv: 2106.07682](https://arxiv.org/abs/2106.07682)) | 視覚モデルの縫合互換性実験の起点 |
| Huh et al., ICML 2024 ([arXiv: 2405.07987](https://arxiv.org/abs/2405.07987)) | プラトン的表現仮説の提唱 |
| Lenc & Vedaldi, CVPR 2015 ([arXiv: 1411.5908](https://arxiv.org/abs/1411.5908)) | モデル縫合の提唱 |
| Merullo et al., ICLR 2023 ([arXiv: 2209.15162](https://arxiv.org/abs/2209.15162)) | 視覚→言語モデルの縫合 |
| Liu et al. (LLaVA), NeurIPS 2023 ([arXiv: 2304.08485](https://arxiv.org/abs/2304.08485)) | 凍結モデル間の縫合 |
| Wu et al. (NExT-GPT), ICML 2024 ([arXiv: 2309.05519](https://arxiv.org/abs/2309.05519)) | 多モダリティ縫合 |
| Wu et al., ICLR 2021 ([arXiv: 2012.03107](https://arxiv.org/abs/2012.03107)) | 暗黙的カリキュラム |
| Hacohen et al., ICML 2020 ([arXiv: 1905.10854](https://arxiv.org/abs/1905.10854)) | 暗黙的カリキュラムの広範な確認 |
| Cao et al., Cognitive Systems Research 2024 ([arXiv: 2104.01489](https://arxiv.org/abs/2104.01489)) | 反変原理 |
| Arora et al., NeurIPS 2019 ([arXiv: 1905.13655](https://arxiv.org/abs/1905.13655)) | ランクの暗黙的正則化 |
| Cohen et al., ICLR 2021 ([arXiv: 2103.00065](https://arxiv.org/abs/2103.00065)) | 平坦性の暗黙的正則化 |
| Soudry et al., JMLR 2018 ([arXiv: 1710.10345](https://arxiv.org/abs/1710.10345)) | マージンの暗黙的正則化 |
| Abdou et al., CoNLL 2021 | BERT 埋め込みと色覚の整合性 |
| Held et al., Nature Neuroscience 2011 | 先天性全盲者の視覚獲得後の高速学習 |
## 関連ページ
- [[プラトン的表現仮説]] — 本記事の中心概念
- [[モデル表現収束]] — 機械学習のアンナ・カレーニナの法則
- [[モデル縫合]] — 表現の整合性を測る手法・実用化技術
- [[暗黙的正則化]] — 表現収束の理由の一つ
- [[アンサンブル学習]] — 強力なモデルでアンサンブル効果が薄れる理由
- [[ビジョン言語モデル]] — マルチモーダル縫合の代表例
- [[佐藤竜馬]] — 著者