# WebText
## 概要
WebText は [[OpenAI]] が [[GPT-2]] の訓練用に構築した大規模ウェブテキストデータセットである。品質を重視し、ソーシャルメディアプラットフォーム Reddit で 3 カルマ以上を獲得した外部リンク先のウェブページからテキストを抽出して構成された。(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## 構築方法
1. Reddit で 3 カルマ以上を獲得した全外部リンク(4,500 万件)をスクレイプ。3 カルマ以上は、他のユーザーがそのリンクを有益・教育的・面白いと判断したことのヒューリスティックな品質指標として機能する。
2. HTML からのテキスト抽出には Dragnet と Newspaper ライブラリを併用。
3. 重複除去とヒューリスティックなクリーニングを実施。
4. Wikipedia 文書はすべて除外(他のデータセットとの訓練データ重複による分析の複雑化を回避するため)。
5. 論文で使用した予備版は 2017 年 12 月以前に作成されたリンクのみを含む。
(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## 規模
- 800 万件超の文書。
- 合計約 40GB のテキスト。
- GPT-2(1.5B パラメータ)でも依然としてアンダーフィットの状態であり、データセットの情報量がモデル容量を上回っていた。
(Source: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]])
## 特徴
Common Crawl 等の既存ウェブスクレイプはデータ品質に問題があった(Trinh & Le, 2018 も「内容の大部分が理解不能な文書」を報告)。WebText は人間のキュレーション(Reddit のカルマシステム)を品質フィルタとして活用することで、手動フィルタリングのコストを回避しつつ文書品質を担保した。この手法は後続の大規模コーパス設計に影響を与えた。
## 関連
- ソース: [[@2019__OpenAI__Language Models are Unsupervised Multitask Learners]]
- 組織: [[OpenAI]]
- プロダクト: [[GPT-2]]