# モデルパラメータの算術
[[佐藤竜馬]] による 2024年1月9日付けのブログ記事(ジョイジョイジョイ)。深層学習モデルのパラメータに対して平均・加算・減算などの算術演算を行い、モデルの能力を直接操作する研究群をサーベイする。モデルスープ・タスクベクトル・NTK 理論・パーミュテーション対称性の 4 つのテーマで構成。
## 核心的主張
- **モデルパラメータ = 関数** として捉えると、算術演算がモデル能力の転移・忘却・合成に直結する
- Word2Vec の単語ベクトルが意味論を捉えたように、モデルパラメータ空間に意味のある幾何構造がある
- NTK 理論でモデルスープとタスクベクトルが統一的に説明できる
## モデルスープ(Model Soups)
Wortsman et al. ICML 2022 が提案。
- 同じベースモデルを異なるハイパーパラメータでファインチューニングした複数モデルの**パラメータ平均**
- 一様スープ(全モデル平均)と貪欲スープ(性能改善するモデルのみ追加)の 2 種
- 推論時間がアンサンブルと異なりモデル数でスケールしない
- 本来は破棄するモデルを材料として活用できる
- 機能する理由: ファインチューニングモデルは同じロスバレーの**線形連結領域**内にいることが多い
## タスクベクトル(Task Vectors)
Ilharco et al. ICLR 2023 が提案。詳細は [[タスクベクトル]] 参照。
- τ = θ_ft − θ_0(ファインチューニング後 − 前のパラメータ差分)がタスク能力を表すベクトル
- 加算でタスク追加、減算でアンラーニング(忘却)
- 複数タスクベクトルの加算 → マルチタスクモデル
- 類推演算: `τ_A - A_特徴 + B_特徴` で B ドメインのタスクを解く
## NTK 理論による統一解釈
Ortiz-Jimenez et al. NeurIPS 2023。
- ファインチューニング ≒ 訓練データ集合によるパルツェン窓の追加
- モデルパラメータ・訓練データ・関数の三者関係をカーネル特徴量で明確化
- タスクベクトルのゼロショット合成も NTK フレームで自然に説明
## パーミュテーション対称性とモデルマージ
- MLP にはニューロンの並べ替えに対する対称性がある(同じ関数の異なるパラメータ表現)
- 異なるモデルが異なる対称コピーにいると単純平均が機能しない
- Git Re-Basin (Ainsworth+ ICLR 2023) — パーミュテーションを最適化して同一基底に変換してからマージ
- この問題は [[GNN同変性]] を使ったメタネットワーク (Kofinas+ ICLR 2024) で別アプローチから解決されており、[[joisino-ICLR-2024-GNN]] の同変性セクションと接続
## 関連ページ
- [[モデルパラメータ算術]] — この記事が扱う概念の総称
- [[タスクベクトル]] — 差分パラメータによるタスク能力の表現と操作
- [[GNN同変性]] — パーミュテーション対称性とメタネットワークとの接続
- [[joisino-ICLR-2024-GNN]] — メタネットワークの ICLR 2024 発表を詳述
- [[佐藤竜馬]] — 著者