# モデルパラメータ算術(Model Parameter Arithmetic)
深層学習モデルのパラメータに対して平均・加算・減算などの算術演算を直接行い、モデルの能力・知識・挙動を操作する研究領域。「モデルパラメータを関数として捉えると、算術演算が関数空間の操作に対応する」という直観に基づく。
## 背景と動機
- 大規模モデルの訓練コストが高く、既存モデルを組み合わせて能力を引き出したいというニーズ
- Word2Vec の単語類推が意味論を捉えたように、モデルパラメータ空間にも意味のある幾何構造が存在することが示されてきた
- モデルアンサンブルの性能向上効果を推論コスト増なしに得たい
## 主な手法
### モデルスープ(Model Soups)
Wortsman et al. ICML 2022。同じベースモデルを異なるハイパーパラメータでファインチューニングした複数モデルのパラメータを平均する。アンサンブルと異なり推論コストが増えない。ファインチューニングモデルが同じロスバレーの線形連結領域内にいるために機能する。
### タスクベクトル(Task Vectors)
Ilharco et al. ICLR 2023。詳細は [[タスクベクトル]] 参照。差分 τ = θ_ft − θ_0 を操作することで能力の転移・削除・合成を実現。
### NTK による統一
Ortiz-Jimenez et al. NeurIPS 2023。NTK (Neural Tangent Kernel) 理論でモデルスープとタスクベクトルを統一的に説明。ファインチューニング = 訓練データのパルツェン窓を追加する操作。
## パーミュテーション対称性という障害
MLP の各層ではニューロンの並べ替えが同じ関数の別表現を生む(パーミュテーション対称性)。異なる訓練から得たモデルはパラメータ空間の異なる対称コピーにいる可能性があり、単純な算術演算が失敗する。
- **Git Re-Basin** (Ainsworth+ ICLR 2023) — パーミュテーション最適化で同一基底に揃えてからマージ
- **GNN メタネットワーク** (Kofinas+ ICLR 2024, Lim+ ICLR 2024) — [[GNN同変性]] を使ってパーミュテーション対称性を陽に扱う。順位相関係数 >= 0.9 でモデル性能を予測
## 理論的位置づけ
| 研究 | 媒介変数 | 成果 |
|-----|---------|------|
| モデルスープ | ハイパーパラメータ多様性 | 単一モデル超え、推論コスト不変 |
| タスクベクトル | タスク差分 τ | 能力転移・削除・合成 |
| NTK 解釈 | カーネル特徴量 | モデルスープ・タスクベクトルの統一説明 |
| Git Re-Basin | パーミュテーション整合 | マージ品質向上 |
| GNN メタネット | 同変性 | 対称性の陽な扱い |
## モデル縫合との比較
[[モデル縫合]](model stitching)はパラメータを混ぜるのではなく、モデル A の中間層出力を縫合層でモデル B の中間層入力に接続する手法である。
| 観点 | モデルパラメータ算術 | モデル縫合 |
|---|---|---|
| 操作対象 | パラメータ(重み) | データフロー(中間表現) |
| 推論コスト | 単一モデルと同等 | モデル A + B の合算 |
| パーミュテーション対称性 | 解消が必要(Git Re-Basin 等) | 縫合層が線形変換で吸収 |
| 活用シーン | モデルマージ・能力の合成 | マルチモーダルモデル作成 |
いずれも表現の整合性([[モデル表現収束]]・[[プラトン的表現仮説]])を前提とするが、パラメータ算術の方が条件が厳しい。(Source: [[joisino-アンナカレーニナの法則-2025]])
## 関連ページ
- [[タスクベクトル]] — 差分パラメータによるタスク能力の表現と操作
- [[GNN同変性]] — パーミュテーション対称性とメタネットワークとの接続
- [[グラフニューラルネットワーク]] — メタネットワークのアーキテクチャ
- [[モデル縫合]] — パラメータを混ぜずにデータフローで接続する関連手法
- [[モデル表現収束]] / [[プラトン的表現仮説]] — 両手法が前提とする表現整合性の根拠
## 参照ソース
- [[joisino-モデルパラメータ算術-2024]] — モデルスープ・タスクベクトル・NTK のサーベイ
- [[joisino-アンナカレーニナの法則-2025]] — モデル縫合との比較・表現収束との接続