## Memo
- [[OpenAI Codex]]より
## Abstract
GitHubで公開されているコードをもとに微調整されたGPT言語モデルCodexを紹介し、そのPythonコードライティング能力を研究します。Codexの製品版はGitHub [[GitHub Copilot]]に搭載されています。docstringからプログラムを合成する際の関数的な正しさを測定するために公開した新しい評価セットHumanEvalでは、GPT-3が0%、GPT-Jが11.4%を解決するのに対し、本モデルは28.8%を解決することができました。さらに、モデルからのサンプリングを繰り返すことで、難易度の高いプロンプトに対する解を生成することができることが分かった。この方法を用いると、1問あたり100サンプルで70.2%の問題を解くことができました。また、このモデルを注意深く調査した結果、長い操作の連鎖を記述した文書や変数への操作の束縛が困難であるなど、その限界が明らかになった。最後に、強力なコード生成技術の導入がもたらす潜在的な影響について、安全性、セキュリティ、経済性などを含めて議論する。
## 1. Introduction