# olmOCR
[[Allen Institute for AI]] が開発した PDF からテキストへの変換パイプライン。2.38 億件のユニーク学術 PDF を処理し、[[Dolma 3]] の学術テキストコーパス(972B トークン)を構築した。長コンテキスト拡張用の Longmino Mix では、32K トークン以上の長文書 450 万件(640B トークン)を提供する。オープンソースとして公開されている。(Source: [[@2025__arXiv__OLMo 3]])
## 関連
- ソース: [[@2025__arXiv__OLMo 3]]
- 開発組織: [[Allen Institute for AI]]
- 使用先: [[Dolma 3]] / [[OLMo 3]]