## Memo
> LLMは最初の試行で最適なテキストを生成できないため、SELF-REFINEフレームワークが必要です。このフレームワークは、フィードバックループを提供し、教師付き学習や強化学習不要で動作します。
## Abstract
人と同じように、[[notes/data-science/LLM]]も与えられた生成問題に対して、最初の試行で最適なテキスト(例:要約、回答、説明)を生成するとは限りません。人がテキストを改良するように、私たちは、フィードバックと改良を繰り返しながら、LLMの最初の出力を同様に改良するフレームワーク、SELF-REFINEを紹介します。主なアイデアは、LLMを使用して出力を生成し、同じモデルが自身の出力に対して多面的なフィードバックを提供することである。従来の研究とは異なり、我々の反復洗練フレームワークは、教師付き学習データや強化学習を必要とせず、単一のLLMで動作する。レビューの書き換えから数学の推論まで、7つの多様なタスクで実験し、我々のアプローチが直接生成よりも優れていることを実証する。すべてのタスクにおいて、SELF-REFINEで生成された出力は、GPT-3.5やGPT-4で直接生成された出力よりも人間や自動化されたメトリクスによって好まれ、タスク間で平均20%絶対的に向上していることがわかります。
## 1. Introduction