# Dolma 3
[[Allen Institute for AI]] が [[OLMo 3]] の訓練用に構築したオープンな訓練データスイート。3 つのミックスから構成される。
1. **Dolma 3 Mix(事前学習、5.9T トークン)**: CommonCrawl 由来の 8T ウェブテキスト、[[olmOCR]] で変換した学術 PDF 972B トークン、Stack-Edu コード、FineMath 数学ウェブページ、Wikipedia を含む 9T トークンのプールから、品質認識型アップサンプリングと制約付きデータ混合で構築。[[Duplodocus]] による 3 段階の兆トークン規模グローバル重複排除(完全一致 67% → MinHash ファジー 23% → サフィックス配列部分文字列 14%)を実施。
2. **Dolmino Mix(ミッドトレーニング、100B トークン)**: 数学・コード・QA・思考トレース・指示データの多領域合成データ。マイクロアニールと統合テストの 2 段方法論で 5 ラウンド反復キュレーション。
3. **Longmino Mix(長コンテキスト拡張、50–100B トークン)**: olmOCR 学術 PDF(32K+ トークン文書 450 万件)を基盤に、CWE/REX 合成集約タスクを注入。
全データが公開されており、元プールを含めた完全な再現が可能。(Source: [[@2025__arXiv__OLMo 3]])
## 関連
- ソース: [[@2025__arXiv__OLMo 3]]
- 開発組織: [[Allen Institute for AI]]
- 使用モデル: [[OLMo 3]]
- データ処理ツール: [[olmOCR]] / [[Duplodocus]]