# モデルパラメータ算術(Model Parameter Arithmetic) 深層学習モデルのパラメータに対して平均・加算・減算などの算術演算を直接行い、モデルの能力・知識・挙動を操作する研究領域。「モデルパラメータを関数として捉えると、算術演算が関数空間の操作に対応する」という直観に基づく。 ## 背景と動機 - 大規模モデルの訓練コストが高く、既存モデルを組み合わせて能力を引き出したいというニーズ - Word2Vec の単語類推が意味論を捉えたように、モデルパラメータ空間にも意味のある幾何構造が存在することが示されてきた - モデルアンサンブルの性能向上効果を推論コスト増なしに得たい ## 主な手法 ### モデルスープ(Model Soups) Wortsman et al. ICML 2022。同じベースモデルを異なるハイパーパラメータでファインチューニングした複数モデルのパラメータを平均する。アンサンブルと異なり推論コストが増えない。ファインチューニングモデルが同じロスバレーの線形連結領域内にいるために機能する。 ### タスクベクトル(Task Vectors) Ilharco et al. ICLR 2023。詳細は [[タスクベクトル]] 参照。差分 τ = θ_ft − θ_0 を操作することで能力の転移・削除・合成を実現。 ### NTK による統一 Ortiz-Jimenez et al. NeurIPS 2023。NTK (Neural Tangent Kernel) 理論でモデルスープとタスクベクトルを統一的に説明。ファインチューニング = 訓練データのパルツェン窓を追加する操作。 ## パーミュテーション対称性という障害 MLP の各層ではニューロンの並べ替えが同じ関数の別表現を生む(パーミュテーション対称性)。異なる訓練から得たモデルはパラメータ空間の異なる対称コピーにいる可能性があり、単純な算術演算が失敗する。 - **Git Re-Basin** (Ainsworth+ ICLR 2023) — パーミュテーション最適化で同一基底に揃えてからマージ - **GNN メタネットワーク** (Kofinas+ ICLR 2024, Lim+ ICLR 2024) — [[GNN同変性]] を使ってパーミュテーション対称性を陽に扱う。順位相関係数 >= 0.9 でモデル性能を予測 ## 理論的位置づけ | 研究 | 媒介変数 | 成果 | |-----|---------|------| | モデルスープ | ハイパーパラメータ多様性 | 単一モデル超え、推論コスト不変 | | タスクベクトル | タスク差分 τ | 能力転移・削除・合成 | | NTK 解釈 | カーネル特徴量 | モデルスープ・タスクベクトルの統一説明 | | Git Re-Basin | パーミュテーション整合 | マージ品質向上 | | GNN メタネット | 同変性 | 対称性の陽な扱い | ## モデル縫合との比較 [[モデル縫合]](model stitching)はパラメータを混ぜるのではなく、モデル A の中間層出力を縫合層でモデル B の中間層入力に接続する手法である。 | 観点 | モデルパラメータ算術 | モデル縫合 | |---|---|---| | 操作対象 | パラメータ(重み) | データフロー(中間表現) | | 推論コスト | 単一モデルと同等 | モデル A + B の合算 | | パーミュテーション対称性 | 解消が必要(Git Re-Basin 等) | 縫合層が線形変換で吸収 | | 活用シーン | モデルマージ・能力の合成 | マルチモーダルモデル作成 | いずれも表現の整合性([[モデル表現収束]]・[[プラトン的表現仮説]])を前提とするが、パラメータ算術の方が条件が厳しい。(Source: [[joisino-アンナカレーニナの法則-2025]]) ## 関連ページ - [[タスクベクトル]] — 差分パラメータによるタスク能力の表現と操作 - [[GNN同変性]] — パーミュテーション対称性とメタネットワークとの接続 - [[グラフニューラルネットワーク]] — メタネットワークのアーキテクチャ - [[モデル縫合]] — パラメータを混ぜずにデータフローで接続する関連手法 - [[モデル表現収束]] / [[プラトン的表現仮説]] — 両手法が前提とする表現整合性の根拠 ## 参照ソース - [[joisino-モデルパラメータ算術-2024]] — モデルスープ・タスクベクトル・NTK のサーベイ - [[joisino-アンナカレーニナの法則-2025]] — モデル縫合との比較・表現収束との接続