joisino-モデルパラメータ算術-2024

# モデルパラメータの算術 [[佐藤竜馬]] による 2024年1月9日付けのブログ記事（ジョイジョイジョイ）。深層学習モデルのパラメータに対して平均・加算・減算などの算術演算を行い、モデルの能力を直接操作する研究群をサーベイする。モデルスープ・タスクベクトル・NTK 理論・パーミュテーション対称性の 4 つのテーマで構成。 ## 核心的主張 - **モデルパラメータ = 関数** として捉えると、算術演算がモデル能力の転移・忘却・合成に直結する - Word2Vec の単語ベクトルが意味論を捉えたように、モデルパラメータ空間に意味のある幾何構造がある - NTK 理論でモデルスープとタスクベクトルが統一的に説明できる ## モデルスープ（Model Soups） Wortsman et al. ICML 2022 が提案。 - 同じベースモデルを異なるハイパーパラメータでファインチューニングした複数モデルの**パラメータ平均** - 一様スープ（全モデル平均）と貪欲スープ（性能改善するモデルのみ追加）の 2 種 - 推論時間がアンサンブルと異なりモデル数でスケールしない - 本来は破棄するモデルを材料として活用できる - 機能する理由: ファインチューニングモデルは同じロスバレーの**線形連結領域**内にいることが多い ## タスクベクトル（Task Vectors） Ilharco et al. ICLR 2023 が提案。詳細は [[タスクベクトル]] 参照。 - τ = θ_ft − θ_0（ファインチューニング後 − 前のパラメータ差分）がタスク能力を表すベクトル - 加算でタスク追加、減算でアンラーニング（忘却） - 複数タスクベクトルの加算 → マルチタスクモデル - 類推演算: `τ_A - A_特徴 + B_特徴` で B ドメインのタスクを解く ## NTK 理論による統一解釈 Ortiz-Jimenez et al. NeurIPS 2023。 - ファインチューニング ≒ 訓練データ集合によるパルツェン窓の追加 - モデルパラメータ・訓練データ・関数の三者関係をカーネル特徴量で明確化 - タスクベクトルのゼロショット合成も NTK フレームで自然に説明 ## パーミュテーション対称性とモデルマージ - MLP にはニューロンの並べ替えに対する対称性がある（同じ関数の異なるパラメータ表現） - 異なるモデルが異なる対称コピーにいると単純平均が機能しない - Git Re-Basin (Ainsworth+ ICLR 2023) — パーミュテーションを最適化して同一基底に変換してからマージ - この問題は [[GNN同変性]] を使ったメタネットワーク (Kofinas+ ICLR 2024) で別アプローチから解決されており、[[joisino-ICLR-2024-GNN]] の同変性セクションと接続 ## 関連ページ - [[モデルパラメータ算術]] — この記事が扱う概念の総称 - [[タスクベクトル]] — 差分パラメータによるタスク能力の表現と操作 - [[GNN同変性]] — パーミュテーション対称性とメタネットワークとの接続 - [[joisino-ICLR-2024-GNN]] — メタネットワークの ICLR 2024 発表を詳述 - [[佐藤竜馬]] — 著者