Dolma 3 - yuuk1's Digital Garden

# Dolma 3 [[Allen Institute for AI]] が [[OLMo 3]] の訓練用に構築したオープンな訓練データスイート。3 つのミックスから構成される。 1. **Dolma 3 Mix（事前学習、5.9T トークン）**: CommonCrawl 由来の 8T ウェブテキスト、[[olmOCR]] で変換した学術 PDF 972B トークン、Stack-Edu コード、FineMath 数学ウェブページ、Wikipedia を含む 9T トークンのプールから、品質認識型アップサンプリングと制約付きデータ混合で構築。[[Duplodocus]] による 3 段階の兆トークン規模グローバル重複排除（完全一致 67% → MinHash ファジー 23% → サフィックス配列部分文字列 14%）を実施。 2. **Dolmino Mix（ミッドトレーニング、100B トークン）**: 数学・コード・QA・思考トレース・指示データの多領域合成データ。マイクロアニールと統合テストの 2 段方法論で 5 ラウンド反復キュレーション。 3. **Longmino Mix（長コンテキスト拡張、50–100B トークン）**: olmOCR 学術 PDF（32K+ トークン文書 450 万件）を基盤に、CWE/REX 合成集約タスクを注入。全データが公開されており、元プールを含めた完全な再現が可能。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用モデル: [[OLMo 3]] - データ処理ツール: [[olmOCR]] / [[Duplodocus]]