Long Ouyang - yuuk1's Digital Garden

# Long Ouyang [[OpenAI]] のアライメントチームに所属する機械学習研究者。InstructGPT の主要著者の一人であり、大規模言語モデルを人間の指示に従わせるための RLHF(人間フィードバックからの強化学習)パイプライン研究を主導した。 ## 主要業績 - **InstructGPT** ([[@2022__NeurIPS__Training language models to follow instructions with human feedback]]): GPT-3 を RLHF で微調整することで指示追従能力を大幅に向上。1.3B InstructGPT が 175B GPT-3 を上回ることを実証。[[Jeff Wu]]・Xu Jiang・Diogo Almeida らと共同で主要著者として担当。 - WebGPT(Nakano+ 2021): ブラウザ支援型 QA システム(共著) - Recursively summarizing books with human feedback(Wu+ 2021): 長文書への RLHF 適用(共著) ## 出典 - [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]