# DeepSeek-VL2
## 概要
DeepSeek-VL2 は [[DeepSeek-AI]] が開発した [[Mixture-of-Experts]] ベースのビジョン言語モデル(VLM)シリーズである。LLaVA スタイルのデコーダ専用アーキテクチャに、動的タイリングビジョンエンコーダ(SigLIP-SO400M-384)、VL アダプタ(2×2 ピクセルシャッフル + 2 層 MLP)、DeepSeekMoE 言語モデル(MLA 搭載)の 3 モジュールを統合する。
## バリアント
| バリアント | 総パラメータ(LLM) | 活性化パラメータ | エキスパート数 | 必要 GPU メモリ |
|---|---|---|---|---|
| DeepSeek-VL2-Tiny | 3B | 1.0B | 64 | 10GB |
| DeepSeek-VL2-Small | 16B | 2.8B | 64 | 40GB |
| DeepSeek-VL2 | 27B | 4.5B | 72 | 80GB |
## 主要能力
- 視覚的質問応答(VQA)
- 光学文字認識(OCR)
- 文書・表・チャート理解
- ビジュアルグラウンディング(物体位置特定)
- グラウンデッド会話(応答中の物体参照)
- マルチ画像会話
- 視覚的ストーリーテリング
- GUI 知覚
## 技術的特徴
- **動的タイリング**: 高解像度画像を mn ≤ 9 のタイルに分割し、任意のアスペクト比に対応。
- **MLA**: KV キャッシュを rank=512 の潜在ベクトルに圧縮し推論効率を向上。
- **特殊トークン**: `<|ref|>`・`<|det|>`・`<|grounding|>` によるグラウンディング能力の統合。
## 関連
- エンティティ: [[DeepSeek-AI]]
- 概念: [[Mixture-of-Experts]]
- ソース: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]]
## 出典
- [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]]