# Dolci
[[Allen Institute for AI]] が [[OLMo 3]] の後訓練用に構築したオープンなデータスイート。Think・Instruct・RL-Zero の 3 変種に対応する。
- **Dolci Think SFT(約 225 万例)**: 数学・コード・指示追従・一般チャットの推論トレース付きデータ
- **Dolci Think DPO**: Delta Learning 用の選好ペア(Qwen 3 32B の出力を chosen、Qwen 3 0.6B の出力を rejected として能力デルタを最大化)
- **Dolci Think RL**: 数学・コード・指示追従・一般チャットの 4 ドメイン、検証可能報酬および LLM ジャッジによる報酬
- **Dolci Instruct SFT/DPO/RL**: Think を基盤に、関数呼び出しデータ(MCP サーバ実トラジェクトリ + SimFC 合成トラジェクトリ)と長さ制御を追加
- **Dolci RL-Zero**: ベースモデルから直接 RLVR を行うためのデータ。ベンチマーク汚染除去済み
全データが公開されている。(Source: [[@2025__arXiv__OLMo 3]])
## 関連
- ソース: [[@2025__arXiv__OLMo 3]]
- 開発組織: [[Allen Institute for AI]]
- 使用モデル: [[OLMo 3]]
- 関連概念: [[強化ファインチューニング]]