# Duplodocus [[Allen Institute for AI]] が [[Dolma 3]] の構築用に開発した Rust 製の大規模テキスト重複排除ツールキット。兆トークン規模のウェブコーパスに対して以下の 3 段階の重複排除を実行する。 1. **完全一致重複排除**: URL + コンテンツハッシュの一致で 67% を除去 2. **MinHash ファジー重複排除**: ドメイン内およびドメイン間の近似重複を検出し 23% を除去 3. **サフィックス配列部分文字列重複排除**: 長い共通部分文字列を検出し 14% を除去 オープンソースで公開されている。(Source: [[@2025__arXiv__OLMo 3]]) ## 関連 - ソース: [[@2025__arXiv__OLMo 3]] - 開発組織: [[Allen Institute for AI]] - 使用先: [[Dolma 3]]