ビジョン言語モデル - yuuk1's Digital Garden

# ビジョン言語モデル ## 定義ビジョン言語モデル(Vision-Language Model; VLM)は、LLM の言語理解・生成能力を視覚情報の処理に拡張したマルチモーダルモデルである。典型的にはビジョンエンコーダ(画像特徴抽出)・モダリティアダプタ(視覚埋め込みを言語空間に射影)・言語モデル(テキスト生成)の 3 モジュールで構成される。LLaVA スタイルのデコーダ専用アーキテクチャが広く採用されている。(Source: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]]) ## 横断的知見 - **LLaVA のようなモデル縫合型 VLM の成立根拠が[[モデル表現収束]]/[[プラトン的表現仮説]]により説明される**: 凍結した視覚モデルと凍結した言語モデルを単純な縫合層でつないで高性能が得られるのは、両モデルが独立に訓練されていても既に整合した「プラトン的表現」へ収束しているためである。モデル性能が向上するにつれてこの縫合が容易かつ効果的になると予測される。(Source: [[joisino-アンナカレーニナの法則-2025]]) - **時間軸のあるグラウンディングタスクで SFT が「偽陰性過剰ペナルティ」に支配される**。Time-R1 は LVLM の SFT が予測 [1.9s, 3.9s] vs 正解 [2s, 4s] のような「ほぼ正解」のケースで自己回帰損失を不当に高くするため、事前学習データが 100 倍以上多くても 9M パラメータの特徴量ベースモデルに劣る場合があると指摘した。RL でタスク固有指標(IoU)を直接最適化することでこの構造的問題が解消される。これは画像分類や VQA などの離散一致タスクでは顕在化しにくい、時間軸タスク固有の VLM 設計課題である (Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]])。 - **RLVR 後訓練が VLM の特化と汎用能力の両立を可能にする**。Time-R1 は TVG への RLVR 後訓練で TVGBench [email protected]=41.8 を達成し Gemini-2.5-Pro(39.1)を超えながら、VideoMME(53.0 → 54.2)で映像 QA 能力も改善した。VLM 特化のための SFT は破滅的忘却を起こすが、RLVR は汎用映像理解能力にも正の転移を与える (Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]])。 - **特化 VLM が汎用大規模 VLM を文書理解タスクで上回る**: GLM-OCR(0.9B)は OmniDocBench v1.5(94.62)で Qwen3-VL-235B(89.15)・Gemini-3 Pro(90.33)を超えた。VLM のスケーリング則が「汎用タスク」ほど文書パース・OCR のような「決定論的・構造的出力タスク」には当てはまらない可能性がある。DeepSeek-VL2 の MoE アーキテクチャが汎用 VQA では効率的であることとの対比が興味深い。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **RLVR は VLM 特化 OCR においても構造出力信頼性を向上させる**: Time-R1 が TVG タスクで連続値報酬を直接最適化した知見(Source: [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]])と同様に、GLM-OCR でも GRPO(Group Relative Policy Optimization)によるタスク固有報酬設計(TEDS・CDM・フィールド F1 等)が構造的出力の不整合を減らす効果を示した。複数の VLM で RL 後訓練が構造的出力タスクに有効であることが収束している。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) ## 未解決の問い - 高解像度画像の動的タイリング(DeepSeek-VL2 方式)と固定解像度エンコーダ(初期 LLaVA 方式)の間で、視覚トークン数と性能のトレードオフはどこにあるか。タイル数の上限(VL2 では mn ≤ 9)はどのような基準で決定すべきか。 - MoE ベース VLM(DeepSeek-VL2、Aria-MoE 等)と密モデル VLM(InternVL2、Qwen2-VL 等)の比較において、活性化パラメータあたりの性能効率はタスク依存か。グラウンディングや OCR のように局所的な視覚特徴が重要なタスクと、推論のように全体的な理解が必要なタスクで、MoE の優位性は異なるか。 - VLM のコンテキストウィンドウ制約(DeepSeek-VL2 では少数画像のみ)は、動的タイリングによるトークン消費の増大が主因か。長コンテキスト LLM 技術(DeepSeek-V4 の百万トークン対応等)の VLM への転用は直接的に可能か。 - 時間軸タスク向けの RLVR が他の連続値 VLM タスク(画像での座標予測・距離推定・サイズ予測)に転移するか。Time-R1 の tIoU 報酬はタイムスタンプ偏差を罰する設計だが、bounding box の座標偏差・3D 推定の距離誤差にも同形で適用できる可能性がある。 - 超長尺映像(hour-level)では正解区間が映像全体の数 % 以下となり報酬信号が希薄化するが、階層的グラウンディングやカリキュラム学習による解決はまだ確立していない。 ## 関連 - ソース: [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]] / [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]] / [[@2026__arXiv__GLM-OCR Technical Report]] / [[joisino-アンナカレーニナの法則-2025]] - エンティティ: [[DeepSeek-VL2]] / [[DeepSeek-AI]] / [[Renmin University of China]] / [[MiLM Plus]] / [[Zhipu AI]] / [[Jie Tang]] - 概念: [[Mixture-of-Experts]] / [[時間的映像グラウンディング]] / [[検証可能報酬による強化学習]] / [[モデル縫合]] / [[モデル表現収束]] / [[プラトン的表現仮説]] / [[文書理解]] / [[光学文字認識]] / [[マルチトークン予測]] ## 出典 - [[@2024__arXiv__DeepSeek-VL2 - Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding]](LLaVA スタイル VLM に MoE + 動的タイリングを統合、3 バリアント展開) - [[@2025__NeurIPS__Time-R1 - Post-Training Large Vision Language Model for Temporal Video Grounding]](LVLM の TVG タスクへの RLVR 後訓練、SFT の偽陰性過剰ペナルティ問題、tIoU 報酬) - [[@2026__arXiv__GLM-OCR Technical Report]](0.9B OCR 特化 VLM が 235B 汎用 VLM を文書パースで凌駕、MTP + 2 ステージパイプライン + GRPO RL によるスループット・性能・信頼性の同時向上)