joisino-訓練データ1個推論性能倍-2025

# 訓練データ1個だけでLLMの推論性能を倍にする [[佐藤竜馬]] による 2025年11月25日付けのブログ記事（ジョイジョイジョイ）。Wang+ NeurIPS 2025「Reinforcement Learning for Reasoning in Large Language Models with *One* Training Example」(arXiv: 2504.20571) を解説する。 ## 核心的主張 - 厳選した数学の問題 **1 問** だけを使った RLVR で、全データ（1209 問）使用時とほぼ同等の推論性能に到達できる。 - MATH500 正答率が 36.0% → 73.6%、6 つの数学ベンチマーク平均正答率が 17.6% → 35.7% に向上。 - **エントロピー増大正則化**を用いることで、同じ問題に対する多様な解が促進される。これが内省語（"rethink"・"recheck"・"recalculate"）の自発的習得と汎用推論能力向上の鍵になる。 - 知識獲得と推論能力獲得は別質の学習である。知識には大量のデータが必要だが、推論能力は品質の高い少数問題を深く考え続けることで得られる。 ## 手法詳細 ### 問題選択 1. 1209 問全てで通常の RLVR を実施(このモデルは破棄する)。 2. 訓練過程で**報酬の分散が最大の問題 π₁** を選ぶ。LLM が成功と失敗を交互に経験する問題ほど、思考力を鍛える良問とみなす。 3. 順位の感度は低く、13 位の π₁₃ を使っても最終的に全データと同等の精度を達成できる。選ばれた問題は風圧・速度・比例計算を含む初等的な代数問題（立方根を含む）だった。 ### 1 問 RLVR の訓練ループ同じ問題 π₁ を全ラウンドで使い続ける。各ラウンドでランダムシードを変えて複数回答を生成し、正解した回答の確率を上げ、誤答の確率を下げる。通常の RLVR との差異は以下の 2 点: 1. **データが 1 問固定**: 従来は各ラウンドで異なる問題を使う。 2. **エントロピー増大正則化**: 出力分布のエントロピーが増大する方向に更新する。多様な出力を促進し、「思考が崩壊しても正答にたどり着く」頑健な推論を学習させる。 ### 訓練ダイナミクス - **訓練精度はすぐに 100% になる**(1 問しかないため当然)。 - 訓練精度が 100% に達した後も、**テスト精度は継続的に向上する**。 - やがてエントロピーが急増し、出力にハングル・文字化けが混入する段階が到来する（1860 ステップ付近）。この時点で訓練精度が少し低下するが、90% 超の試行では最終的に正答にたどり着く。 - 思考の連鎖長と出力エントロピーはともに段階的に増大し、ある時点で一気に跳ね上がる。 ### 内省語の自発的習得訓練過程で "rethink"・"recheck"・"recalculate" などの**内省語（self-reflection words）**の出現頻度が増加する。これにより思考が崩壊しても元の推論に戻り、最終的に正答にたどり着く能力が身に付く。内省語の習得がエントロピー解放の鍵であり、汎用問題への転移の主因と考えられる。 ## 実験結果 | 設定 | MATH500 | 6 ベンチ平均 | |---|---|---| | 事前学習直後(ベース) | 36.0% | 17.6% | | フォーマット RL のみ | 65.0% | 28.7% | | 1 問 RLVR(π₁) | 73.6% | 35.7% | | 全データ(1209 問)RLVR | ≒73% | ≒36% | *フォーマット RL: 正誤を問わず出力形式への準拠のみを強化。「精度が倍増」のトリックは、ベースモデルが形式を守れずに誤答扱いされていたことが主因。問題選択の感度: 1207 位・1208 位の問題（誤ラベル・超難問）を除けば、どの問題でも 1 問 RLVR で数学能力を大きく改善できる。 ## 解釈と考察 - **知識 vs 推論の分離**: 知識獲得は多大なデータ量を要するが、推論能力獲得には品質の高い少数問題で十分。本研究はこの差を極端な設定で実証した。 - **現状技術の限界の明確化**: 事後学習で LLM に付加できる能力には上限があり、その範囲（内省語の習得・思考の頑健性）に限れば 1 問でも十分。逆説的に、より広い知能向上には別のアプローチが必要であることも示唆する。 - **実践上の選択肢**: 問題選択に訓練コストを要さない代替として、単純な選択基準や人手による高品質問題の作成が挙げられている。 ## 関連 - 解説記事: [[佐藤竜馬]] - 扱う概念: [[1サンプルRLVR]]・[[検証可能報酬による強化学習]]・[[強化ファインチューニング]]・[[強化学習スケーリング]] - 関連 MOC: [[structures/000 Index]]