# DeepSeek-VL2 ## 概要 DeepSeek-VL2 は [[DeepSeek-AI]] が開発した [[Mixture-of-Experts]] ベースのビジョン言語モデル(VLM)シリーズである。LLaVA スタイルのデコーダ専用アーキテクチャに、動的タイリングビジョンエンコーダ(SigLIP-SO400M-384)、VL アダプタ(2×2 ピクセルシャッフル + 2 層 MLP)、DeepSeekMoE 言語モデル(MLA 搭載)の 3 モジュールを統合する。 ## バリアント | バリアント | 総パラメータ(LLM) | 活性化パラメータ | エキスパート数 | 必要 GPU メモリ | |---|---|---|---|---| | DeepSeek-VL2-Tiny | 3B | 1.0B | 64 | 10GB | | DeepSeek-VL2-Small | 16B | 2.8B | 64 | 40GB | | DeepSeek-VL2 | 27B | 4.5B | 72 | 80GB | ## 主要能力 - 視覚的質問応答(VQA) - 光学文字認識(OCR) - 文書・表・チャート理解 - ビジュアルグラウンディング(物体位置特定) - グラウンデッド会話(応答中の物体参照) - マルチ画像会話 - 視覚的ストーリーテリング - GUI 知覚 ## 技術的特徴 - **動的タイリング**: 高解像度画像を mn ≤ 9 のタイルに分割し、任意のアスペクト比に対応。 - **MLA**: KV キャッシュを rank=512 の潜在ベクトルに圧縮し推論効率を向上。 - **特殊トークン**: `<|ref|>`・`<|det|>`・`<|grounding|>` によるグラウンディング能力の統合。 ## 関連 - エンティティ: [[DeepSeek-AI]] - 概念: [[Mixture-of-Experts]] - ソース: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]] ## 出典 - [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]]