@2023__arXiv__GPT-4 Technical Report - yuuk1's Digital Garden

> [!abstract] 概要 > 我々は GPT-4 の開発について報告する。GPT-4 は画像とテキストの入力を受け付け、テキストを出力する大規模マルチモーダルモデルである。多くの実世界シナリオでは人間に及ばないものの、GPT-4 は様々な専門的・学術的ベンチマークで人間水準の性能を示す。たとえば模擬バー試験で上位 10% のスコアを達成した。GPT-4 は文書中の次のトークンを予測するよう事前学習された Transformer ベースモデルである。事後訓練のアライメント処理により、factuality の尺度と望ましい挙動への遵守が改善した。本プロジェクトの中核は、広範なスケールにわたって予測可能な挙動を示す深層学習インフラとオプティマイゼーション手法の開発であった。これにより GPT-4 の 1/1,000 以下の計算量で訓練されたモデルから GPT-4 の性能の一部を正確に予測できた。 ## 論文情報 - **タイトル**: GPT-4 Technical Report - **著者**: OpenAI(共同著者 280 名超。「OpenAI (2023)」として引用) - **arXiv**: 2303.08774v6 [cs.CL]、2023-03-15 投稿、最終版 2024-03-04 - **DOI**: 10.48550/arXiv.2303.08774 - **コード / 評価フレームワーク**: OpenAI Evals(https://github.com/openai/evals) ## 概要 GPT-4 は OpenAI が 2023 年 3 月に公開した大規模マルチモーダル言語モデルである。画像とテキストを入力として受け付け、テキストを出力する点が GPT-3 シリーズとの根本的な相違点である。技術的には Transformer 系の次トークン予測モデルで、RLHF による事後アライメントを施す。本レポートは競合・安全上の理由から**アーキテクチャ詳細・モデルサイズ・訓練計算量・データセット構成を意図的に公開していない**点が特徴である。 ## 問題設定 - **入力**: テキストと画像の任意の混合列 - **出力**: テキスト - **前提**: 次トークン予測の事前学習 + RLHF 事後訓練 - 超大規模訓練ランに対してモデル固有チューニングが不可能なため、**訓練前にスケーリング則で性能を予測できるインフラ**が必要 ## 提案手法 ### 予測可能スケーリング(§3) GPT-4 の訓練計算量を 1 とすると: - **損失予測**: 1/10,000 以下の計算量のモデルに $L(C) = aC^b + c$（Henighan ら 2020 の不可逆損失項付き冪乗則）をフィットし、GPT-4 の内部コードベーステスト損失を高精度で外挿した(Figure 1) - **能力予測**: HumanEval の 23 問サブセットで $-\mathbb{E}_P[\log(\text{pass\_rate}(C))] = \alpha^* C^{-k}$ という冪乗則を特定し、1/1,000 以下の計算量モデルから GPT-4 のパス率を訓練完了前に登録予測した(Figure 2) - **逆スケーリングの反転**: 逆スケーリング賞(Hindsight Neglect タスク)でスケールとともに性能が下がる傾向を GPT-4 が反転させた(Figure 3) ### RLHF 事後訓練(§2・§6) - 公開インターネットデータとライセンスデータで事前学習 - 人間のフィードバックによる強化学習(RLHF)で factuality と挙動遵守を向上 - **ルールベース報酬モデル(RBRM)**: ゼロショット GPT-4 分類器を安全関連の報酬信号として RLHF に組み込み、有害リクエストの適切な拒否と無害クエリの過剰拒否低減を両立 ### 視覚入力(§4.1) - 任意にインターリーブされた画像・テキスト列を入力として処理 - テキスト入力と同等の能力(few-shot prompting・chain-of-thought 等がそのまま有効) - 評価は限定的な学術ベンチマークのみ公開(詳細はフォローアップ論文に委ねる) ## 新規性 | 比較対象 | GPT-4 の優位点 | |---|---| | GPT-3.5 | バー試験：下位 10%→上位 10%。MMLU 70.0%→86.4%。GSM-8K 57.1%→92.0%。HumanEval 48.1%→67.0% | | 当時の LM SOTA（few-shot）| MMLU(70.7%)・HumanEval(26.2%)・HellaSwag(84.2%)・ARC(85.2%)をいずれも超過 | | ベンチマーク特化 SOTA | HumanEval を除くほぼ全ベンチマークで超過または同等 | | 多言語 | 26 言語中 24 で、他モデルの**英語性能**を上回った(ラトビア語・ウェールズ語・スワヒリ語含む) | GPT-4 の主な新規性は「単一の汎用モデルで多言語・マルチモーダル・専門試験を横断的に達成したこと」と「予測可能スケーリングによって超大規模訓練前に性能を予測できる方法論を確立したこと」である。 ## 実験設定 - **試験評価(Table 1)**: 人間向け試験の公開素材を使用。多肢選択・自由記述に別プロンプト設計。試験汚染対策として訓練データに含まれた問題を除外した低スコア版も報告し、いずれか低い方を採用 - **ベンチマーク(Table 2)**: GPT-4 の事前学習モデル(RLHF なし)で評価。few-shot prompting を統一使用(GSM-8K のみ chain-of-thought を追加) - **汚染対策(Appendix C/D)**: テストデータが訓練データに現れる割合を調査し、除外後スコアと共に報告。BIG-bench は訓練に混入が判明したため除外 - **比較対象**: GPT-3.5(few-shot)、LM SOTA(few-shot)、ベンチマーク固有チューニング SOTA ## 実験結果 ### 学術・専門試験(Table 1、抜粋) | 試験 | GPT-4 | GPT-4(視覚なし) | GPT-3.5 | |---|---|---|---| | Uniform Bar Exam(MBE+MEE+MPT) | 298/400(上位約 10%) | 298/400 | 213/400(下位約 10%) | | LSAT | 163(上位約 12%) | 161 | 149(下位約 60%) | | SAT EBRW | 710/800(上位約 7%) | 710/800 | 670/800 | | SAT Math | 700/800(上位約 11%) | 690/800 | 590/800 | | GRE Verbal | 169/170(上位約 1%) | 165/170 | 154/170 | | USABO Semifinal 2020 | 87/150(99〜100%tile) | 87/150 | 43/150 | | LeetCode easy | 31/41 | 31/41 | 12/41 | | LeetCode medium | 21/80 | 21/80 | 8/80 | 試験性能は主に事前学習に起因し、RLHF の影響は軽微（多肢選択は事前学習モデルと RLHF モデルで平均同等）。 ### NLP ベンチマーク(Table 2) | ベンチマーク | GPT-4 | GPT-3.5 | LM SOTA | チューニング SOTA | |---|---|---|---|---| | MMLU | 86.4% | 70.0% | 70.7% | 75.2% | | HellaSwag | 95.3% | 85.5% | 84.2% | 85.6% | | ARC Challenge | 96.3% | 85.2% | 85.2% | 86.5% | | WinoGrande | 87.5% | 81.6% | 85.1% | 85.1% | | HumanEval(0-shot) | 67.0% | 48.1% | 26.2% | 65.8% | | GSM-8K(5-shot CoT) | 92.0% | 57.1% | 58.8% | 87.3% | | DROP(F1, 3-shot) | 80.9 | 64.1 | 70.8 | 88.4 | DROP のみチューニング SOTA(88.4)を下回る。 ### 多言語 MMLU(Figure 5) GPT-4 は 26 言語中 24 で GPT-3.5・PaLM・Chinchilla の**英語性能**を上回った。最低言語(Telugu)でも 62.0%、GPT-3.5 英語(70.1%)は Latvian 以上の言語で超過。 ### factuality 内部逆張り factuality 評価で GPT-4 は最新 GPT-3.5 モデルより 19 パーセントポイント高精度（Figure 6）。TruthfulQA mc1 でも RLHF 後の GPT-4 が GPT-3.5-turbo・Anthropic-LM を大幅上回った（Figure 7）。 **Table 3: モデル構成** ![[_attachments/arxiv-2303.08774/table3-model.png]] (Table 3. standard test-time techniques developed for language models (e.g. few-shot prompting, chain-of- thought, etc) are simila に関するモデル構成を示す。) **Table 17: 事例** ![[_attachments/arxiv-2303.08774/table17-case-study.png]] (Table 17. Example prompt demonstrating GPT-4’s visual input capability に関する事例を示す。) **Table 18: 事例** ![[_attachments/arxiv-2303.08774/table18-case-study.png]] (Table 18. Example prompt demonstrating GPT-4’s visual input capability に関する事例を示す。) **Table 19: 事例** ![[_attachments/arxiv-2303.08774/table19-case-study.png]] (Table 19. Example prompt demonstrating GPT-4’s visual input capability に関する事例を示す。) **Figure 11: 評価結果** ![[_attachments/arxiv-2303.08774/fig11-results.png]] (Figure 11. 評価結果を示す。) ## 考察 ### キャリブレーション劣化(§5) 事前学習モデルは高精度キャリブレーション（ECE 0.007、ほぼ対角線上）を示すが、RLHF 事後訓練でキャリブレーションが大幅に低下（ECE 0.074、Figure 8）する。MMLU のサブセットで確認。RLHF は挙動遵守・factuality を向上させる一方、**モデルの内部確信度と正答率の対応を崩す**という構造的トレードオフがある。 ### 安全性改善(§6) - ドメイン専門家 50 名超(AI アライメント・サイバーセキュリティ・生物リスク・国際安全保障等)によるレッドチーム - RBRM(ルールベース報酬モデル)をゼロショット GPT-4 分類器として実装し、有害・センシティブリクエストへの応答を分類して報酬に組み込む - 禁止コンテンツへの応答率：GPT-3.5 比 82% 削減 - センシティブリクエスト対応：29% 改善 - RealToxicityPrompts 毒性生成率：0.73%(GPT-3.5: 6.48%) ### 限界 - 幻覚(hallucination)が依然残存（改善はされたが根絶されていない） - 知識カットオフ：2021 年 9 月以降のイベントを基本的に知らない - 文脈窓の制限・経験からの学習不能 - RLHF によるキャリブレーション劣化 - Codeforces Rating は 5 パーセンタイル以下にとどまり競技プログラミングの限界がある ## 強み / 弱点・課題 **強み**: - 予測可能スケーリングにより超大規模モデルの性能事前予測が可能に - 学術・専門試験での人間水準達成（バー試験・医療知識等） - RLHF + RBRM による安全性の定量的改善 - 多言語での他モデルの英語性能超過 **弱点・課題**: - アーキテクチャ・スケール・訓練詳細を完全非公開（再現・検証不能） - RLHF によるキャリブレーション劣化（過信バイアスの増大） - 競技プログラミング・高度数学での限界（Codeforces 5 パーセンタイル以下、AMC 10 が 6-12 パーセンタイル） - System Card の社会的リスク項目（偏見・偽情報・過剰依存・プライバシー・サイバーセキュリティ・拡散リスク）が残る