# ビジョン言語モデル
## 定義
ビジョン言語モデル(Vision-Language Model; VLM)は、LLM の言語理解・生成能力を視覚情報の処理に拡張したマルチモーダルモデルである。典型的にはビジョンエンコーダ(画像特徴抽出)・モダリティアダプタ(視覚埋め込みを言語空間に射影)・言語モデル(テキスト生成)の 3 モジュールで構成される。LLaVA スタイルのデコーダ専用アーキテクチャが広く採用されている。(Source: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]])
## 横断的知見
(本概念は初出のため、今後のソース追加で複数ソースを突き合わせた観察を蓄積する)
## 未解決の問い
- 高解像度画像の動的タイリング(DeepSeek-VL2 方式)と固定解像度エンコーダ(初期 LLaVA 方式)の間で、視覚トークン数と性能のトレードオフはどこにあるか。タイル数の上限(VL2 では mn ≤ 9)はどのような基準で決定すべきか。
- MoE ベース VLM(DeepSeek-VL2、Aria-MoE 等)と密モデル VLM(InternVL2、Qwen2-VL 等)の比較において、活性化パラメータあたりの性能効率はタスク依存か。グラウンディングや OCR のように局所的な視覚特徴が重要なタスクと、推論のように全体的な理解が必要なタスクで、MoE の優位性は異なるか。
- VLM のコンテキストウィンドウ制約(DeepSeek-VL2 では少数画像のみ)は、動的タイリングによるトークン消費の増大が主因か。長コンテキスト LLM 技術(DeepSeek-V4 の百万トークン対応等)の VLM への転用は直接的に可能か。
## 関連
- ソース: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]]
- エンティティ: [[DeepSeek-VL2]] / [[DeepSeek-AI]]
- 概念: [[Mixture-of-Experts]]
## 出典
- [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]](LLaVA スタイル VLM に MoE + 動的タイリングを統合、3 バリアント展開)