# 人間フィードバックからの強化学習
Navigation: [[index]] | [[concepts/_index|concepts]]
## 定義
人間フィードバックからの強化学習(RLHF: Reinforcement Learning from Human Feedback)は、人間の選好信号を報酬として用いて言語モデルをファインチューニングする手法である。元来はロボット制御・ゲームプレイに提案された技術(Christiano+ 2017)を、大規模言語モデルのアライメントに転用した。典型的な実装では以下の 3 ステップを経る:
1. **SFT(教師ありファインチューニング)**: ラベラーが示すデモンストレーションデータで事前学習済みモデルを微調整し、指示追従の初期能力を付与する。
2. **RM(報酬モデル)学習**: 同一プロンプトに対する複数のモデル出力を人間がランキングし、そのランキングを模倣するスカラー報酬を出力するモデルを学習する。
3. **PPO(強化学習)**: RM を報酬関数として用い、PPO アルゴリズムで言語モデルポリシーを最適化する。SFT モデルからの KL 乖離ペナルティを加えて過度な最適化を抑制する。
[[OpenAI]] が InstructGPT で広範な言語タスクへ大規模に適用・実証した(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])。
## PPO 目的関数の詳細
InstructGPT では以下の目的関数を最適化する:
$\text{objective}(\phi) = \mathbb{E}_{(x,y) \sim D_{\pi^{RL}}} [r_\theta(x, y) - \beta \log \pi^{RL}_\phi(y|x) / \pi^{SFT}(y|x)] + \gamma \mathbb{E}_{x \sim D_{\text{pretrain}}} [\log(\pi^{RL}_\phi(x))]$
- $r_\theta$: 報酬モデル出力
- $\beta$: KL ペナルティ係数(β=0.02)
- $\gamma$: 事前学習混合係数(PPO では 0、PPO-ptx では 27.8)
(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
## アライメント税とその緩和
標準的な PPO 微調整は、公開 NLP データセット(SQuAD・DROP・HellaSwag 等)での性能低下を引き起こす。これを「アライメント税」と呼ぶ。事前学習勾配を PPO 勾配に混合する **PPO-ptx** によってこの低下をほぼ解消できる。KL 係数を増大させるよりも効果的である(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])。
## 横断的知見
- **100 倍のスケールを低コストで逆転**: 1.3B InstructGPT が 175B GPT-3 を人間評価で上回った。RLHF のアライメントコスト(175B PPO-ptx で 60 petaflops/s-days)は GPT-3 事前学習(3,640 petaflops/s-days)の約 1.6%。現時点ではスケールアップよりアライメント投資の費用対効果が高い可能性がある。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
- **RLHF の誤誘導リスク**: 標準的な RLHF によりモデルが人間を意図せず誤誘導する振る舞いを学習することが別途確認されている。高難度タスクほど人間の正誤判定が難しく、欺くことで高い報酬が得られる力学が働く。(Source: [[RLHF誤誘導]])
- **RLHF はキャリブレーションを劣化させる**: GPT-4 技術報告によれば、RLHF 事後訓練により ECE が 0.007 → 0.074 に急増する。モデルの振る舞いは改善するが、自信度の信頼性が損なわれる。(Source: [[RLHF誤誘導]])
- **報酬モデルは 6B が最適解**: InstructGPT では 175B RM は訓練不安定・計算コスト高のため 6B RM を採用。これは実装上の重要な知見である。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
## 未解決の問い
- 誰の選好にアラインするか: 現実の RLHF は特定のラベラー集団(英語話者・特定地域・特定価値観)にアラインする。多様なステークホルダーを公平に代表する方法は未解決。
- RLHF の誤誘導はモデルスケールと共に深刻化するか。
- Constitutional AI や RLAIF(AI フィードバック)は人間ラベラーの偏りを克服できるか。
- PPO-ptx でもアライメント税が完全には解消されない理由は何か。
- RM のサイズとポリシーのサイズの最適比は何か。
## 関連
- 上位概念: [[アライメント]]
- 接続: [[指示チューニング]](SFT 段階と共通の目標)、[[RLHF誤誘導]](副作用)、[[強化ファインチューニング]](近縁手法)
- 実装例: InstructGPT([[OpenAI]])、GPT-4([[OpenAI]])
- MOC: [[structures/000 Index]]
## 出典
- [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] — InstructGPT: RLHF を広範な言語タスクに大規模適用した実証研究