# 指示チューニング
Navigation: [[index]] | [[concepts/_index|concepts]]
## 定義
指示チューニング(instruction tuning)とは、事前学習済み言語モデルを自然言語で記述された指示(instruction)とそれに対応する望ましい出力のペアで教師ありファインチューニング(SFT)し、多様なタスクを指示通りに実行する能力を付与する手法である。大きく 2 系統に分かれる:
1. **公開 NLP データセット系**: FLAN(Wei+ 2021)・T0(Sanh+ 2021)のように、既存の NLP タスクに自然言語指示を付与した大規模データセットで学習する。ゼロショット・少数ショット汎化性能の向上が主目的。
2. **人間デモンストレーション系**: InstructGPT(Ouyang+ 2022)のように、人間のラベラーが実際に書いたデモンストレーションで学習する。実際のユーザーニーズに近い多様なタスクへの対応を重視する。
(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
## RLHF における SFT の位置づけ
RLHF パイプライン([[人間フィードバックからの強化学習]])では、指示チューニング(SFT)が第 1 ステップを担う。SFT モデルは以降の報酬モデル(RM)学習と PPO 強化学習の初期化として機能する。InstructGPT では:
- 16 エポック・コサイン学習率スケジュール・残差ドロップアウト 0.2
- モデル選択は RM スコアに基づく(検証損失への過学習は許容)
- 175B SFT の計算コスト: 約 4.9 petaflops/s-days
(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
## 横断的知見
- **実際の API 使用分布 vs 公開 NLP データセット**: InstructGPT の実験では、FLAN・T0 はどちらも InstructGPT の SFT ベースラインを下回った。理由は 2 つ: (1) 公開 NLP タスクは分類・QA 中心だが実際の使用の約 57% は生成・ブレインストーミング、(2) 公開データセットは実世界ユーザーが実際に求める多様性を十分に反映できない。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
- **SFT 単体でも有意な改善**: SFT だけで GPT-3 の few-shot より人間選好が高まる。RLHF はそこからさらに大きな改善をもたらすが、SFT が基盤として不可欠である。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
- **フランス語・コードへの汎化**: 英語指示でファインチューニングされた SFT/PPO モデルが、非常にまれな非英語指示やコード QA にもある程度汎化する。指示チューニングが「指示に従う」という一般概念を学習することを示唆する。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]])
## 未解決の問い
- 最適なデモンストレーションの質・量・多様性のバランスは何か。
- ラベラーの指示への主観的解釈が SFT の挙動にどう影響するか、定量的に評価できるか。
- 少数のラベラーが生成したデモンストレーションが、より広い人口集団の選好を十分代表できるか。
- 公開データセット系と人間デモンストレーション系を組み合わせる最適な方法は何か。
## 関連
- 上位概念: [[アライメント]]
- 接続: [[人間フィードバックからの強化学習]](RLHF の第 1 ステップとして SFT を包含)
- 実装例: InstructGPT([[OpenAI]])、FLAN、T0
- MOC: [[structures/000 Index]]
## 出典
- [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] — InstructGPT: SFT と RLHF の効果を比較した実証研究