Qwen3-VL - yuuk1's Digital Garden

# Qwen3-VL ## 定義 Qwen3-VL は [[Alibaba Group]] の Qwen3 系列に属するオープンソースの vision-language model(VLM)(Bai et al., 2025、arXiv:2511.21631)。[[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] では 8B・32B の 2 規模を評価する。 ## 役割・位置づけ - ARFBench の few-shot 評価で、Qwen3-VL 32B は最良のオープンソース VLM(精度 52.8%・F1 45.1%)。ただし最良プロプライエタリ(GPT-5)に精度 9.9pp・F1 6.8pp 劣る。 - TSFM-VLM ハイブリッド [[Toto-1.0-QA-Experimental]] の VLM バックボーンとして [[Toto]] と結合学習される。RL のみで後段学習した Qwen3-VL 32B 単体(精度 56.9%)もベースラインとして比較される。 - 推論は vLLM ライブラリで実行(Kwon et al., 2023)。画像は Qwen 内蔵ユーティリティで自動リサイズ。 ## 関連 - エンティティ: [[Alibaba Group]](開発元)/ [[Toto-1.0-QA-Experimental]](結合先)/ [[ARFBench]] - ソース: [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] - 概念: [[時系列質問応答]] ## 出典 - [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]