# Long Ouyang
[[OpenAI]] のアライメントチームに所属する機械学習研究者。InstructGPT の主要著者の一人であり、大規模言語モデルを人間の指示に従わせるための RLHF(人間フィードバックからの強化学習)パイプライン研究を主導した。
## 主要業績
- **InstructGPT** ([[@2022__NeurIPS__Training language models to follow instructions with human feedback]]): GPT-3 を RLHF で微調整することで指示追従能力を大幅に向上。1.3B InstructGPT が 175B GPT-3 を上回ることを実証。[[Jeff Wu]]・Xu Jiang・Diogo Almeida らと共同で主要著者として担当。
- WebGPT(Nakano+ 2021): ブラウザ支援型 QA システム(共著)
- Recursively summarizing books with human feedback(Wu+ 2021): 長文書への RLHF 適用(共著)
## 出典
- [[@2022__NeurIPS__Training language models to follow instructions with human feedback]]