WebText - yuuk1's Digital Garden

# WebText ## 概要 WebText は [[OpenAI]] が [[GPT-2]] の訓練用に構築した大規模ウェブテキストデータセットである。品質を重視し、ソーシャルメディアプラットフォーム Reddit で 3 カルマ以上を獲得した外部リンク先のウェブページからテキストを抽出して構成された。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## 構築方法 1. Reddit で 3 カルマ以上を獲得した全外部リンク（4,500 万件）をスクレイプ。3 カルマ以上は、他のユーザーがそのリンクを有益・教育的・面白いと判断したことのヒューリスティックな品質指標として機能する。 2. HTML からのテキスト抽出には Dragnet と Newspaper ライブラリを併用。 3. 重複除去とヒューリスティックなクリーニングを実施。 4. Wikipedia 文書はすべて除外（他のデータセットとの訓練データ重複による分析の複雑化を回避するため）。 5. 論文で使用した予備版は 2017 年 12 月以前に作成されたリンクのみを含む。 (Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## 規模 - 800 万件超の文書。 - 合計約 40GB のテキスト。 - GPT-2（1.5B パラメータ）でも依然としてアンダーフィットの状態であり、データセットの情報量がモデル容量を上回っていた。 (Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]) ## 特徴 Common Crawl 等の既存ウェブスクレイプはデータ品質に問題があった（Trinh & Le, 2018 も「内容の大部分が理解不能な文書」を報告）。WebText は人間のキュレーション（Reddit のカルマシステム）を品質フィルタとして活用することで、手動フィルタリングのコストを回避しつつ文書品質を担保した。この手法は後続の大規模コーパス設計に影響を与えた。 ## 関連 - ソース: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]] - 組織: [[OpenAI]] - プロダクト: [[GPT-2]]