olmOCR - yuuk1's Digital Garden

# olmOCR [[Allen Institute for AI]] が開発した PDF からテキストへの変換パイプライン。2.38 億件のユニーク学術 PDF を処理し、[[Dolma 3]] の学術テキストコーパス（972B トークン）を構築した。長コンテキスト拡張用の Longmino Mix では、32K トークン以上の長文書 450 万件（640B トークン）を提供する。オープンソースとして公開されている。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用先: [[Dolma 3]] / [[OLMo 3]]