# Dolci [[Allen Institute for AI]] が [[OLMo 3]] の後訓練用に構築したオープンなデータスイート。Think・Instruct・RL-Zero の 3 変種に対応する。 - **Dolci Think SFT(約 225 万例)**: 数学・コード・指示追従・一般チャットの推論トレース付きデータ - **Dolci Think DPO**: Delta Learning 用の選好ペア(Qwen 3 32B の出力を chosen、Qwen 3 0.6B の出力を rejected として能力デルタを最大化) - **Dolci Think RL**: 数学・コード・指示追従・一般チャットの 4 ドメイン、検証可能報酬および LLM ジャッジによる報酬 - **Dolci Instruct SFT/DPO/RL**: Think を基盤に、関数呼び出しデータ(MCP サーバ実トラジェクトリ + SimFC 合成トラジェクトリ)と長さ制御を追加 - **Dolci RL-Zero**: ベースモデルから直接 RLVR を行うためのデータ。ベンチマーク汚染除去済み 全データが公開されている。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用モデル: [[OLMo 3]] - 関連概念: [[強化ファインチューニング]]