指示チューニング - yuuk1's Digital Garden

# 指示チューニング Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義指示チューニング(instruction tuning)とは、事前学習済み言語モデルを自然言語で記述された指示(instruction)とそれに対応する望ましい出力のペアで教師ありファインチューニング(SFT)し、多様なタスクを指示通りに実行する能力を付与する手法である。大きく 2 系統に分かれる: 1. **公開 NLP データセット系**: FLAN(Wei+ 2021)・T0(Sanh+ 2021)のように、既存の NLP タスクに自然言語指示を付与した大規模データセットで学習する。ゼロショット・少数ショット汎化性能の向上が主目的。 2. **人間デモンストレーション系**: InstructGPT(Ouyang+ 2022)のように、人間のラベラーが実際に書いたデモンストレーションで学習する。実際のユーザーニーズに近い多様なタスクへの対応を重視する。 (Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## RLHF における SFT の位置づけ RLHF パイプライン([[人間フィードバックからの強化学習]])では、指示チューニング(SFT)が第 1 ステップを担う。SFT モデルは以降の報酬モデル(RM)学習と PPO 強化学習の初期化として機能する。InstructGPT では: - 16 エポック・コサイン学習率スケジュール・残差ドロップアウト 0.2 - モデル選択は RM スコアに基づく(検証損失への過学習は許容) - 175B SFT の計算コスト: 約 4.9 petaflops/s-days (Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 横断的知見 - **実際の API 使用分布 vs 公開 NLP データセット**: InstructGPT の実験では、FLAN・T0 はどちらも InstructGPT の SFT ベースラインを下回った。理由は 2 つ: (1) 公開 NLP タスクは分類・QA 中心だが実際の使用の約 57% は生成・ブレインストーミング、(2) 公開データセットは実世界ユーザーが実際に求める多様性を十分に反映できない。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) - **SFT 単体でも有意な改善**: SFT だけで GPT-3 の few-shot より人間選好が高まる。RLHF はそこからさらに大きな改善をもたらすが、SFT が基盤として不可欠である。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) - **フランス語・コードへの汎化**: 英語指示でファインチューニングされた SFT/PPO モデルが、非常にまれな非英語指示やコード QA にもある程度汎化する。指示チューニングが「指示に従う」という一般概念を学習することを示唆する。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 未解決の問い - 最適なデモンストレーションの質・量・多様性のバランスは何か。 - ラベラーの指示への主観的解釈が SFT の挙動にどう影響するか、定量的に評価できるか。 - 少数のラベラーが生成したデモンストレーションが、より広い人口集団の選好を十分代表できるか。 - 公開データセット系と人間デモンストレーション系を組み合わせる最適な方法は何か。 ## 関連 - 上位概念: [[アライメント]] - 接続: [[人間フィードバックからの強化学習]](RLHF の第 1 ステップとして SFT を包含) - 実装例: InstructGPT([[OpenAI]])、FLAN、T0 - MOC: [[structures/000 Index]] ## 出典 - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] — InstructGPT: SFT と RLHF の効果を比較した実証研究