## Memo
### 主要な図表
#### 図1. 進化モデルマージの概要
![[sakana_evolutionary_model_merging_explained.jpeg]]
(Figure 1. 2つの主要な最適化次元:パラメータ空間(PS)とデータフロー空間(DFS)を組み合わせた進化モデルマージの概要図。)
- **パラメータ空間 (PS)**: モデルの重みを混ぜ合わせる際の係数を最適化。
- **データフロー空間 (DFS)**: モデルのレイヤーをどの順序で、どのように積み重ねて推論パスを形成するかを最適化。
#### 図2. 日本語数学LLM(EvoLLM-JP)の性能
![[sakana_evollm_math_results.png]]
(Figure 2. 日本語能力(JP-LMEH)と数学能力(MGSM-JA)のトレードオフにおける進化したモデルの性能。既存の7Bクラスを大きく上回り、70Bクラスに匹敵する位置にある。)
#### 表1. LLM性能比較 (MGSM-JA)
| モデル名 | パラメータ数 | MGSM-JA (数学) | JP-LMEH (日本語) |
| :--- | :--- | :--- | :--- |
| **EvoLLM-JP-v1-7B (提案)** | **7B** | **52.0** | **59.3** |
| Llama-2-70b-chat | 70B | 46.8 | 51.5 |
| Mistral-7B-v0.1 | 7B | 18.0 | 45.4 |
| Shisa-Gamma-7B (Base) | 7B | 10.4 | 55.4 |
(Table 1. 日本語数学ベンチマークにおける性能比較。EvoLLM-JPは7Bながら70Bモデルを凌駕する数学性能を示す。)
#### 表2. 日本語VLM性能比較 (JA-VG-VQA)
![[sakana_evovlm_results.png]]
(Table 2. 日本語画像応答ベンチマークにおける性能比較。日本固有の文化に関する質問において、英語ベースの強力なVLMを上回る。)
#### VLM応答例(鯉のぼり・信号機)
![[sakana_evovlm_example_1_jp.jpeg]]
![[sakana_evovlm_example_2_jp.jpeg]]
(左:鯉のぼりの認識、右:信号機の色の回答(日本の慣習に合わせた「青」))
## Memo with LLM
### 論文情報
- **論文のタイトル**: Evolutionary Optimization of Model Merging Recipes
- **著者と所属**: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha (Sakana AI)
- **カンファレンス/ジャーナル名**: Nature Machine Intelligence (NMI)
- **発表年**: 2025年 (Originally published on arXiv in 2024)
### 論文概要
モデルマージ(Model Merging)のプロセスを進化計算(Evolutionary Algorithms)を用いて自動化する手法を提案。パラメータ空間(重みの混合比率)とデータフロー空間(レイヤーの積み重ね順序)の両方を最適化することで、追加学習を一切行わずに高性能な基盤モデルを「合成」することに成功した。具体例として、数学能力に優れた日本語LLMや、日本の文化を深く理解するVLM(Vision-Language Model)を構築し、当時のSOTA(最高性能)を記録した。
### 詳細解説
#### 問題設定
モデルマージは、既存の学習済みモデルを組み合わせて、各モデルの長所を併せ持つ新しいモデルを低コストで作成する手法である。しかし、どのモデルのどの層を、どのような比率で混ぜるかという「レシピ」の作成は、現状では人間の直感や試行錯誤(いわゆる「職人芸」)に頼っており、モデルの種類や層の数が増えるにつれて探索空間が膨大になり、最適な組み合わせを見つけることが困難であった。
#### 提案手法
進化アルゴリズム(CMA-ESなど)を用いて、特定のベンチマークスコア(適応度: Fitness)を最大化するように、モデルマージのレシピを自動的に探索する手法を提案した。
- **アーキテクチャ**:
- **Parameter Space (PS) Optimization**: 各レイヤーの重みの混合係数(Mixing Coefficients)を進化計算で最適化する。既存の TIES-Merging や DARE といった手法を拡張し、レイヤーごとの最適なブレンド率やスパース性を自動決定する。
- **Data Flow Space (DFS) Optimization**: 異なるモデルからレイヤーを抽出し、それらを再構成して積み重ねる(Layer Stacking)パスを最適化する。これにより、元のモデルとは異なる深さ(レイヤー数)を持つ新しい「フランケン・モデル」を生成できる。
- **アルゴリズムの詳細**:
1. 初期ポピュレーションとして random なマージレシピを生成。
2. 各レシピでマージモデルを作成し、少量の検証データ(MGSM等)で評価。
3. 評価の高いレシピを選択し、交叉・変異を通じて次世代のレシピを生成。
4. これを繰り返し、最適なレシピを特定する。
#### 新規性
モデルマージのレシピ作成を世界で初めて完全に自動化した点。また、単なる重みの平均化だけでなく、レイヤーの構成(データフロー)自体を最適化の対象に含めることで、ドメインの異なるモデル(例:日本語LLMと英語VLM)を効果的に合成できる「クロスドメイン・マージ」を可能にした。
#### 実験設定
- **実験環境**: 追加の学習(バックプロパゲーション)を必要としないため、推論のみで最適化が可能。CPUおよび単一GPUスケールで実行可能。
- **データセット**: 日本語数学能力(MGSM-JA)、日本語LLMベンチマーク(JGLUEなど)、日本語画像説明(JA-VG-VQA)。
- **比較対象 (Baseline)**: 従来の日本語モデルや、マージ元のベースモデル、および大幅にパラメータ数の多い巨大モデル(Llama-2-70B等)。
- **評価指標**: 正解率、VQAスコア。
#### 実験結果
- **定量的評価**: 日本語数学LLM(EvoLLM-JP)は、7Bパラメータながら、当時の70Bクラスのモデルに匹敵する、あるいはそれ以上の数学性能を記録した。
- **定性的評価**: 日本語VLM(EvoVLM-JP)は、英語VLMが持っていた高い画像認識能力と、日本語LLMが持っていた文化的背景知識を統合。日本の料理(オムライス等)や風景を正確に説明できるようになった。
#### 考察 (Discussion)
- **結果の解釈**: モデルマージは、単なる能力の「補間」ではなく、進化計算による探索を通じて、人間が思いつかないようなレイヤーの組み合わせを発見できる。
- **優位性の根拠**: 学習データが不足しているドメインや、巨大な計算資源がない環境でも、既存の強力なモデルを「再利用」することで高性能なモデルを生み出せる。
- **限界と例外**: 最適化のために使用するベンチマークデータに過学習するリスクがある。また、評価指標が設計しにくいタスクには適用が難しい。
#### 強み (Strengths)
- 追加学習が不要で、計算コストが極めて低い(Zero-training approach)。
- 既存の多様なオープンソースモデルの「集合知」を最大限に活用できる。
- mergekit 等のツールに統合され、コミュニティでの汎用性が高い。
#### 弱点・課題 (Weaknesses / Limitations)
- 進化計算のプロセスで多数の推論評価が必要。
- 評価指標(報酬関数)の設定がモデルの最終的な質を決定するため、その設計に依存する。
## Abstract
大規模言語モデル(LLM)はますます有能になっているが、その開発には多大な計算資源が必要となることが多い。モデルマージは、既存のモデルを組み合わせて新しいモデルを作成するための、費用対効果の高い有望なアプローチとして浮上してきたが、現在は人間の直感やドメイン知識に依存しており、その可能性が制限されている。本研究では、多様なオープンソースモデルの効果的な組み合わせを自動的に発見することで、広範な追加学習データや計算を必要とせずに、モデルの集合知を活用できる進化論的アプローチを提案する。我々のアプローチはパラメータ空間とデータフロー空間の両方で動作し、個々のモデルの重みだけでなく、それ以上の最適化を可能にする。このアプローチは、数学的推論能力を持つ日本語LLMのような、クロスドメインのマージも容易にする。驚くべきことに、我々の日本語数学LLMは、明示的にそのようなタスクのために訓練されていないにもかかわらず、既存の多様な日本語LLMベンチマークで当時のSOTA(最高性能)を記録し、大幅に多くのパラメータを持つモデルさえ上回った。さらに、我々のアプローチで生成された文化的に配慮した日本語VLMは、日本固有の文化的なコンテンツを説明する際の効果を実証し、従来の日本語VLMを凌駕した。本研究は、新しいSOTAモデルをオープンソースコミュニティに提供するだけでなく、自動化されたモデル合成のための新しいパラダイムを導入し、基盤モデル開発における代替的で効率的なアプローチを探索する道を切り拓くものである。