# DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding > [!abstract] 概要 > DeepSeek-VL2 は [[DeepSeek-AI]] が開発した MoE ベースのビジョン言語モデル(VLM)シリーズである。前身の DeepSeek-VL に対し、(1) 動的タイリングビジョンエンコーディング戦略による高解像度・多様なアスペクト比の画像処理、(2) Multi-head Latent Attention(MLA)と [[Mixture-of-Experts]] を組み合わせた DeepSeekMoE 言語バックボーンによる効率的推論の 2 つの主要改善を導入する。Tiny(活性化 1.0B)・Small(活性化 2.8B)・標準(活性化 4.5B)の 3 バリアントで構成され、VQA・OCR・文書/表/チャート理解・ビジュアルグラウンディングなどの多様なタスクで、同規模の既存オープンソースモデルに対し競争力のある、または最先端の性能を達成する。 ## 論文情報 - **著者**: Zhiyu Wu, Xiaokang Chen, Zizheng Pan, Xingchao Liu, Wen Liu(プロジェクトリーダー), Damai Dai, Huazuo Gao, Yiyang Ma, Chengyue Wu, Bingxuan Wang, Zhenda Xie, Yu Wu, Kai Hu, Jiawei Wang, Yaofeng Sun, Yukun Li, Yishi Piao, Kang Guan, Aixin Liu, Xin Xie, Yuxiang You, Kai Dong, Xingkai Yu, Haowei Zhang, Liang Zhao, Yisong Wang, Chong Ruan(対応著者) - **所属**: [[DeepSeek-AI]] - **発表日**: 2024-12-13 - **arXiv**: [2412.10302](https://arxiv.org/abs/2412.10302)(cs.CV, cs.AI, cs.CL) - **コード**: [github.com/deepseek-ai/DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2) ## 概要 DeepSeek-VL2 は、LLaVA スタイルのデコーダ専用アーキテクチャにビジョンエンコーダ・VL アダプタ・MoE ベース言語モデルを統合した VLM シリーズである。前身 DeepSeek-VL の固定解像度(384×384 + 1024×1024)のハイブリッドビジョンエンコーダを、動的タイリング戦略に置き換え、言語モデルを MLA 搭載の DeepSeekMoE に刷新した。視覚・言語の訓練データも質・量・多様性の面で大幅に強化し、ビジュアルグラウンディングや GUI 知覚などの新能力を獲得している。 ## 問題設定 大規模ビジョン言語モデルは、LLM の能力を視覚・テキストの双方に拡張する有望なアプローチである。しかし、(1) 高解像度・多様なアスペクト比の画像を効率的に処理すること、(2) 訓練・推論の計算効率を維持しつつモデル性能を向上させること、(3) 多様なタスク(VQA・OCR・文書理解・グラウンディング等)で汎化性能を確保すること、の 3 点が課題として残る。 ## 提案手法 ### 動的タイリングビジョンエンコーダ SigLIP-SO400M-384 を単一のビジョンエンコーダとして使用し、高解像度画像を動的にタイルに分割する。候補解像度集合 CR = {(m·384, n·384) | m,n ∈ N, 1 ≤ m,n, mn ≤ 9} からパディング面積を最小化する解像度を選択し、画像を m×n 個のローカルタイル + 1 個のグローバルサムネイルに分割する。各タイルから 27×27 = 729 個の視覚埋め込みを抽出する。 VL アダプタでは 2×2 ピクセルシャッフルにより各タイルのトークン数を 27×27 から 14×14 = 196 に圧縮し、グローバルサムネイル(210 トークン)・ビューセパレータトークン・ローカルタイル群を結合して言語モデルの埋め込み空間に 2 層 MLP で射影する。複数画像(3 枚以上)の場合は計算効率のため動的タイリングを無効化する。 ### DeepSeekMoE 言語バックボーン 言語モデルは DeepSeekMoE を採用し、MLA 機構により KV キャッシュを潜在ベクトルに圧縮して推論速度とスループットを向上させる。3 バリアントの構成は以下のとおり。 | | DeepSeek-VL2-Tiny | DeepSeek-VL2-Small | DeepSeek-VL2 | |---|---|---|---| | 総パラメータ(LLM) | 3B | 16B | 27B | | 活性化パラメータ(LLM) | 0.57B | 2.4B | 4.1B | | ルーテッドエキスパート数 | 64 | 64 | 72 | | 共有エキスパート数 | 2 | 2 | 2 | | Top-K | 6 | 6 | 6 | | アテンション | Multi-Head | MLA (rank=512) | MLA (rank=512) | | ルーティング関数 | Softmax | Softmax | Sigmoid | DeepSeek-VL2(最大バリアント)のみシグモイドルーティング + エキスパート補正バイアスを使用し、補助損失への依存を低減した負荷分散を実現する。 ### 訓練パイプライン 3 段階で訓練する。 1. **VL アライメント**: ビジョンエンコーダと VL アダプタのみを訓練し、言語モデルは凍結。ShareGPT4V(約 120 万サンプル)を使用。 2. **VL 事前学習**: 全パラメータを解凍し、約 800B トークンの画像・テキストデータ(VL 70%、テキスト 30%)で訓練。 3. **教師あり微調整(SFT)**: 全パラメータを最適化し、回答と特殊トークンのみを監督。 訓練は NVIDIA A100 GPU のクラスタ(16/33/42 ノード × 8 GPU)で 7/10/14 日間実施された。パイプライン並列ではビジョンエンコーダの細粒度レイヤ分割と、画像タイル数の動的不均衡を吸収するデータ並列ランク間の負荷分散を導入した。 ## 新規性 1. **動的タイリング戦略**: 固定解像度の制約を排除し、任意のアスペクト比・高解像度の画像を効率的に処理する。ビジョントランスフォーマのローカルアテンションを活かし、画像解像度増大に伴う二次的な計算量増大を回避する。 2. **MoE + MLA の VLM への統合**: DeepSeekMoE の疎計算と MLA の KV キャッシュ圧縮を VLM に初めて本格適用し、少ない活性化パラメータで高い性能と推論効率を両立する。 3. **ビジュアルグラウンディング能力の統合**: 特殊トークン(`<|ref|>`・`<|det|>`・`<|grounding|>`)を導入し、物体検出・グラウンデッド会話・文脈内ビジュアルグラウンディングを VLM に統合する。 ## 実験設定 - **ベンチマーク**: DocVQA、ChartQA、InfoVQA、TextVQA、OCRBench、AI2D、MMMU、MMStar、MathVista、MME、MMBench(v1.0/v1.1)、MMT-Bench、RealWorldQA、RefCOCO/RefCOCO+/RefCOCOg - **比較対象**: InternVL2 系列、Qwen2-VL 系列、LLaVA-OV、Phi-3.5-Vision、Molmo、MiniCPM-V、Pixtral-12B、Aria-MoE、MM1.5、クローズドモデル(GPT-4V/4o、Claude 3.5 Sonnet、Gemini-1.5-Pro) ## 実験結果 ### OCR 関連ベンチマーク - DeepSeek-VL2-Tiny(活性化 1.0B): DocVQA 88.9、ChartQA 81.0、OCRBench 809 で、同規模(0.5B–3B)のオープンソースモデルを大幅に上回る。 - DeepSeek-VL2-Small(活性化 2.8B): DocVQA 92.3、ChartQA 84.5、OCRBench 834。 - DeepSeek-VL2(活性化 4.5B): DocVQA 93.3、ChartQA 86.0 で、活性化パラメータ 8.3B の Qwen2-VL-7B に匹敵。 ### 一般 QA・数学ベンチマーク - DeepSeek-VL2(活性化 4.5B): MMStar 61.3、MMMU 51.1、MathVista 62.8、MME 2253、MMBench 83.1 で、InternVL2-8B(活性化 8.0B)や Qwen2-VL-7B(活性化 8.3B)と同等以上の性能を、約半分の活性化パラメータで達成する。 ### ビジュアルグラウンディング - DeepSeek-VL2: RefCOCO val 95.1、testA 96.7、testB 92.7 で、同規模 VLM の中で最高性能。DeepSeek-VL2-Small も RefCOCO val 93.9 と強力な結果を示す。 ### 定性評価 画像説明・ランドマーク認識・チャート理解・テキスト認識・ミーム理解・マルチ画像会話・視覚的ストーリーテリング・GUI 操作・文脈内ビジュアルグラウンディングなどの多様な能力を定性的に実証する。 ## 考察 MoE アーキテクチャにより、総パラメータに対する活性化パラメータ比を低く保ちつつ高い性能を達成する設計は、VLM のスケーリング戦略として有効である。動的タイリング戦略は固定解像度の制約を解消し、文書・チャート・GUI などの高解像度タスクで顕著な改善をもたらす。MLA による KV キャッシュ圧縮は、推論時のメモリ効率とスループット向上に直結する。 訓練データの質向上(キャプション品質管理パイプライン、リキャプション、負例の導入)が性能改善に大きく寄与しており、アーキテクチャとデータの両面での改善が相乗効果を発揮している。 ## 強み - **効率的なスケーリング**: 活性化パラメータ 4.5B で、8B 以上の密モデルに匹敵する性能を実現し、推論コスト・デプロイメントの実用性が高い(10GB/40GB/80GB の単一 GPU で動作可能)。 - **動的タイリング**: アスペクト比を保持した高解像度処理により、文書・チャート・インフォグラフィックスなどの実世界タスクで強力な性能を発揮する。 - **包括的な能力**: VQA・OCR・グラウンディング・マルチ画像理解・ストーリーテリングなど幅広いタスクをカバーする。 - **完全オープンソース**: コードと事前学習済みモデルを公開し、再現性と研究の加速に貢献する。 ## 弱点・課題 - **コンテキストウィンドウの制約**: チャットセッションあたり少数の画像のみ対応可能であり、リッチなマルチ画像対話が制限される。 - **ぼやけた画像・未知の物体への脆弱性**: 他の現行 VLM と同様、低品質画像や訓練時に見ていない物体に対するロバスト性に改善の余地がある。 - **推論能力の限界**: 視覚的知覚・認識には優れるが、複雑な推論タスクでの能力強化が今後の課題として挙げられる。 - **言語混在問題**: Tiny バリアントで中国語応答に英単語が混入する現象が報告されており、小規模モデルにおけるデータバランスの課題を示す。 ## 出典 - [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding|本論文]]