Toto-1.0-QA-Experimental - yuuk1's Digital Garden

# Toto-1.0-QA-Experimental ## 定義 Toto-1.0-QA-Experimental(別名 Toto-Qwen3-VL)は [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] が提案する TSFM-VLM ハイブリッドモデル。観測予測の[[時系列基盤モデル]] [[Toto]] と、オープンソース VLM [[Qwen3-VL]] 32B を結合学習する(Figure 4)。 ![[Pasted image 20260604144016.png]] ## 役割・位置づけ - アーキテクチャ: Toto の埋め込みを VLM 空間へ変換する 2 要素を学習する。(1) variate embedding MLP(時間方向の集約・正規化・射影。文脈長が系列長に比例して伸びるのを防ぐ)、(2) VLM projection layer(テキストデコーダの隠れ次元へ射影)。ハイブリッドでは射影層の学習と Toto バックボーンの fine-tune も行う。 - 訓練: 3 段階。Stage 1 = 合成 12,000 例の SFT、Stage 2 = 実 395 例の SFT、Stage 3 = DAPO レシピの RLVR(0/1 正解報酬のみ)。各段で別の LoRA アダプタを学習し逐次適用、前段は凍結。 - 性能(Table 3): ARFBench 全体で精度 63.9%(全モデル最良、GPT-5 を 1.2pp 上回る)・F1 48.9%(4 番目)。Tier III 精度が全モデル最高。同条件で後段学習した Qwen3-VL 32B・Toto-1.0-Qwen3 32B を精度 7pp 以上・F1 2.3pp 以上上回り、時系列と視覚の結合が性能向上に寄与すると示す。precision が recall より一貫して高い(過少予測の傾向)。 - 訓練フレームワーク: TRL を時系列入力対応に改造、NVIDIA B200×8(bf16)。 ## 関連 - エンティティ: [[Toto]](TSFM バックボーン)/ [[Qwen3-VL]](VLM バックボーン)/ [[ARFBench]] / [[Datadog]] - ソース: [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]] - 概念: [[時系列質問応答]] / [[時系列基盤モデル]] - 関連 MOC: [[時系列基盤モデル - MOC]] ## 出典 - [[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]