モデル表現収束 - yuuk1's Digital Garden

# モデル表現収束 ## 定義モデル表現収束は、アーキテクチャ・訓練方法・モダリティが異なるモデルであっても、性能が高くなるにつれて互いに似た内部表現(埋め込み)を持つようになる現象である。機械学習における「アンナ・カレーニナの法則」とも呼ばれる。Bansal et al.(NeurIPS 2021, arXiv: 2106.07682)が視覚モデルでこの現象を組織的に確認し、Huh et al.(ICML 2024)がこれを説明する[[プラトン的表現仮説]]を提唱した。(Source: [[joisino-アンナカレーニナの法則-2025]]) 端的に言えば: > 性能の良いモデルはどれもみな同じような表現をもっているが、性能の悪いモデルにはそれぞれ性能の悪い表現がある。 ## 現象の範囲表現収束は以下のすべての軸を越えて確認されている。 | 軸 | 具体例 | |---|---| | ランダムシードの違い | 同一アーキテクチャ・同一手法で異なる初期値から訓練 | | アーキテクチャの違い | ResNet 対 ViT | | 訓練手法の違い | 教師あり学習対自己教師あり学習 | | データセットの違い | ImageNet 対 Places365 | | **モダリティの違い** | 言語モデル対視覚モデル | (Source: [[joisino-アンナカレーニナの法則-2025]]) モダリティ間の収束が特に注目される。テキストのみで訓練された BERT の埋め込みが、視覚モデルの色表現や人間の色覚知覚と整合することが示されている(Abdou et al., CoNLL 2021)。 ## 収束の測定方法 1. **モデル縫合(stitching)**: 2つのモデルの中間層を単純な縫合層でつなぎ、高性能を回復できれば表現が整合すると判断する([[モデル縫合]]参照) 2. **近傍一致度**: ペアデータを各モデルの埋め込み空間で近傍探索し、上位 K 件の一致率で類似度を測る。Huh et al. はこの基準を採用した ## 収束の理由収束を「普通の訓練」で自然に引き起こす仕組みとして3つの原理が挙げられる。 - **[[暗黙的正則化]]**: 勾配法は単純な(ノルムが小さい)解から探索を始め、最初に出会う良い解で停止する。複雑な回り道をしないため、独立に訓練したモデルでも似た大域構造が得られる - **暗黙的カリキュラム**: 明示的なカリキュラムがなくても、モデルはまず簡単な例から学習し、徐々に難しい例を学習していく。この結果、訓練の早い段階で獲得される大域的構造が共通化される - **反変原理**: 多くの異なるタスクを同時に解けるようになる必要があると、ありうる表現の候補が絞られる ## 実用上の含意 - **マルチモーダル訓練の根拠**: テキストと画像が共通の表現に収束するなら、一方のデータが他方のモデルの訓練を助けうる([[プラトン的表現仮説]]参照) - **[[モデル縫合]]によるマルチモーダルモデル作成**: LLaVA・NExT-GPT 等の成功はこの収束が実用レベルに達していることを示す - **アンサンブルの限界**: 強力なモデルどうしは既に表現が似ているため、[[アンサンブル学習]]の補完効果が弱まる(弱いモデルはそれぞれ異なる欠点を持つため補完効果が大きい) - **LoRA・コンポーネントの流用**: 表現整合性を前提として、あるモデル向けコンポーネントを他モデルに流用できる事例の説明になる ## 横断的知見 - [[joisino-アンナカレーニナの法則-2025]] は視覚モデル間・視覚対言語の収束を扱うが、[[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]] はさらに言語モデル対ヒト脳という軸を追加する。緯度経度プローブによる地理座標のエンコード、BERT埋め込みとCIELAB色空間の同型性(Abdou et al. 2021、両ソース共通の引用)、in silico/in vivoの対比(Futrell & Mahowald 2025)が示され、収束が「モデル同士」に限らず「モデルと生物」にも及ぶ可能性が補強される(Source: [[@2025__SpeakerDeck__言語モデルの内部機序：解析と解釈]])。 - [[モデルパラメータ算術]](モデルマージ)が成立する前提の一つも表現の整合性(パーミュテーション対称性を揃えれば算術が成立する)であり、概念的に深く関連する。ただしモデルマージはモデル縫合と異なりパラメータレベルの操作であり、整合性の条件が厳しい。 ## 未解決の問い - 表現収束の「限界点」はどこか。性能がどの程度高くなれば収束が顕著になるか。 - モダリティによって収束の速さが異なるか。視覚と言語の収束速度は同程度か。 - 収束するのは「どのレイヤー」か。入力に近い浅い層と出力に近い深い層では収束の度合いが異なるか。 - 性能が収束を促す一方向因果か、収束が性能を促すのか、両者は循環するのか。 ## 関連 - 概念: [[プラトン的表現仮説]] / [[モデル縫合]] / [[暗黙的正則化]] / [[アンサンブル学習]] / [[モデルパラメータ算術]] / [[ビジョン言語モデル]] - ソース: [[joisino-アンナカレーニナの法則-2025]] - エンティティ: [[佐藤竜馬]] ## 出典 - [[joisino-アンナカレーニナの法則-2025]](佐藤竜馬、2025-05-20) - Bansal et al., NeurIPS 2021 (arXiv: 2106.07682) — 視覚モデルでの縫合互換性実験 - Huh et al., ICML 2024 (arXiv: 2405.07987) — [[プラトン的表現仮説]]の提唱