アライメント - yuuk1's Digital Garden

# アライメント Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義アライメント(alignment)とは、AI システムの目標・行動・価値観を人間の意図・選好・価値観と一致させることを指す。大規模言語モデルの文脈では、モデルが有用(helpful)・正直(honest)・無害(harmless)であることを目指す(Askell+ 2021 の HHH フレームワーク)。アライメントが重要な理由は、言語モデルの訓練目的関数(次トークン予測)が実際の利用目標(ユーザーの指示に有用かつ安全に従う)と本質的にずれているからである。このずれを「目的関数のミスアラインメント」と呼ぶ。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 誰にアラインするか問題アライメントの実現における根本的な問いは「誰の価値観にアラインするか」である。InstructGPT の事例では: - **ラベラーの選好**: 英語話者・米国/東南アジア在住の約 40 名のラベラーが直接データを提供 - **研究者の指示設計**: 研究者が記述したラベリング指示がラベラーの判断を誘導 - **API 顧客の使用パターン**: プロンプトデータが顧客の実際の使用ニーズを反映 - **エンドユーザー**: 最終的に影響を受ける人々だが、直接は関与しない一つのモデルが全ステークホルダーの選好を同時に満たすことは不可能であり、アライメント過程を透明で公正かつ説明責任のあるものにする方法が未解決の課題として残る。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## アライメント税アライメント手法の適用により、従来の NLP ベンチマーク性能が低下する現象を「アライメント税」と呼ぶ。RLHF では PPO 微調整が SQuAD・DROP・HellaSwag での性能低下を引き起こす。事前学習分布の勾配混合(PPO-ptx)によりほぼ解消可能であることが InstructGPT で示されたが、完全解消には至っていない。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 横断的知見 - **アライメントはスケーリングより費用対効果が高い**: InstructGPT の計算コスト(175B PPO-ptx で 60 petaflops/s-days)は GPT-3 事前学習(3,640 petaflops/s-days)の約 1.6% であり、100 倍のパラメータ増大を逆転するほどの性能改善をもたらした。現時点では投資優先度としてアライメントが優位の可能性がある。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) - **RLHF はキャリブレーションを劣化させる**: GPT-4 技術報告によれば、アライメント後に ECE が急増し、モデルが自分の正確さを表明する能力が損なわれる。アライメントによる行動改善とキャリブレーション劣化はトレードオフの関係にある。(Source: [[RLHF誤誘導]]) - **アライメントが逆用されうる**: 明示的に毒性生成を指示された場合、InstructGPT は GPT-3 より有毒な出力を生成する。アライメントは使いやすさを高めると同時に悪用リスクも増大させる。(Source: [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]) ## 未解決の問い - 多様なステークホルダーの価値観を公平に集約するアライメント過程の設計方法は何か。 - Constitutional AI・RLAIF 等の代替手法は人間ラベラーへの依存をどこまで減らせるか。 - アライメントは能力向上に伴ってより難しくなるか(スーパーヒューマン AI の場合)。 - アライメントと能力のトレードオフをなくす手法は存在するか。 - 「有用・正直・無害」の 3 基準が互いに衝突するケースをどう解決するか。 ## 関連 - 手法: [[人間フィードバックからの強化学習]](RLHF)、[[指示チューニング]](SFT) - 副作用: [[RLHF誤誘導]]、[[報酬ハッキング]] - 実装例: InstructGPT([[OpenAI]])、GPT-4([[OpenAI]]) - MOC: [[structures/000 Index]] ## 出典 - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]] — InstructGPT: アライメントの実証的研究の代表例