モデル縫合 - yuuk1's Digital Garden

# モデル縫合 ## 定義モデル縫合(model stitching)は、訓練済みモデル A の最初の $k$ 層と訓練済みモデル B の後半の $l$ 層を、単純な縫合層(線形層など)でつなぐことで、両モデルの表現の整合性(互換性)を評価・活用する手法である。Lenc & Vedaldi(CVPR 2015, arXiv: 1411.5908)が提唱した。縫合層のみを訓練した後、元のモデル A に匹敵する高性能を回復できれば、両モデルの表現に整合性があると見なす。(Source: [[joisino-アンナカレーニナの法則-2025]]) モデル A とモデル B は同じアーキテクチャでもよく、異なるモダリティの独立に訓練されたモデルでもよい。 ## 実験的知見 ### 単一モダリティ内 Bansal et al.(NeurIPS 2021, arXiv: 2106.07682)は幅広い視覚モデルを調査した。 - 同じアーキテクチャで異なるランダムシードのモデルどうしも縫合できる - 教師あり学習と自己教師あり学習という異なる訓練方法のモデルどうしも縫合できる - 縫合位置(割合)にかかわらず性能低下は小さい - ランダム初期化モデルとは縫合できない(対照実験) ### モダリティ間 - Merullo et al.(ICLR 2023, arXiv: 2209.15162): 視覚モデルの埋め込みを言語モデルに縫合できることを確認 - LLaVA(Liu et al., NeurIPS 2023, arXiv: 2304.08485): 凍結視覚モデルと凍結言語モデルを縫合し、多様な視覚言語タスクで高性能を達成 - NExT-GPT(Wu et al., ICML 2024, arXiv: 2309.05519): テキスト・画像・音声・動画のモデルを縫合 ### 意義 **ランダムシード・アーキテクチャ・訓練方法・モダリティが異なっていても、良いモデルどうしは縫合互換性のある、互いに似た表現を用いている**ことが示唆される。 ## 技術的ポイント - モデル A・B の重みを凍結し、縫合層のみを訓練することが標準的な手順 - 縫合層の複雑さ(線形層か非線形層か)は整合性の強さに依存するが、線形層で足りる場合が多い - 近傍一致度と組み合わせることで定量的な類似度評価も可能([[モデル表現収束]]参照) ## 実用化と展望 - **マルチモーダルモデルの効率的な構築**: 各モダリティの専門モデルを独立に訓練した後、縫合で組み合わせることが可能。LLaVA・NExT-GPT はその実用例 - **[[プラトン的表現仮説]]との関係**: 表現収束が進むほど縫合が容易・効果的になると予測されるため、将来の性能向上に伴い縫合によるマルチモーダルモデル作成がますます簡便化する - **[[モデルパラメータ算術]]との違い**: モデル縫合は推論時のデータフローを再配線する(重みを混ぜない)のに対し、モデルパラメータ算術はパラメータレベルで演算する。前者は表現の整合性が線形変換の範囲で十分な場合に有効で、後者はパーミュテーション対称性の解消が必要になる場合がある ## 横断的知見 - 現時点では本 wiki にこの手法を直接扱うソースが [[joisino-アンナカレーニナの法則-2025]] 1本のみ。今後の追加ソースとの比較検討が必要。 ## 未解決の問い - 縫合層の表現力(線形・MLP など)が縫合品質に与える影響の定量的評価はどこまで進んでいるか。 - 縫合によって構築したマルチモーダルモデルは、エンドツーエンドで共同訓練したモデルと比べてどの程度性能が劣るか。ギャップは性能向上とともに縮まるか。 - 音声・動画・センサーなど、LLaVA・NExT-GPT 以外のモダリティでの縫合成功率はどうか。 ## 関連 - 概念: [[モデル表現収束]] / [[プラトン的表現仮説]] / [[暗黙的正則化]] / [[モデルパラメータ算術]] / [[ビジョン言語モデル]] - ソース: [[joisino-アンナカレーニナの法則-2025]] - エンティティ: [[佐藤竜馬]] ## 出典 - [[joisino-アンナカレーニナの法則-2025]](佐藤竜馬、2025-05-20) - Lenc & Vedaldi, CVPR 2015 (arXiv: 1411.5908) — モデル縫合の提唱 - Bansal et al., NeurIPS 2021 (arXiv: 2106.07682) — 視覚モデルでの広範な縫合実験 - Merullo et al., ICLR 2023 (arXiv: 2209.15162) — 視覚→言語縫合 - Liu et al. (LLaVA), NeurIPS 2023 (arXiv: 2304.08485) — 凍結モデル縫合で VLM 構築 - Wu et al. (NExT-GPT), ICML 2024 (arXiv: 2309.05519) — 多モダリティ縫合