1サンプルRLVR - yuuk1's Digital Garden

# 1サンプルRLVR Navigation: [[index]] | [[concepts/_index|concepts]] ## 定義 1 サンプル RLVR（one-sample RLVR）とは、RLVR（検証可能報酬による強化学習）の訓練データを意図的に **1 問だけ** に絞った極端な少データ強化学習の設定である。Wang+ NeurIPS 2025 が初めて体系的に検証し、事前学習直後のモデルに対して MATH500 正答率 36.0% → 73.6%、6 ベンチマーク平均 17.6% → 35.7% という、全データ（1209 問）使用時と遜色ない性能向上を達成した (Source: [[joisino-訓練データ1個推論性能倍-2025]])。通常の RLVR との技術的差異は 2 点: (1) 全ラウンドで同一の問題 π₁ を使い続ける、(2) **エントロピー増大正則化**により出力分布の多様性を強制的に維持する。これにより、訓練精度がすぐに 100% になった後も、内省語（rethink/recheck/recalculate）の自発的習得とエントロピーの段階的拡大が生じ、テスト精度が継続的に向上する。 ## 横断的知見 - **1 サンプル RLVR が全データ RLVR と競合する事実は、「推論能力獲得に多様な問題は不要」という知識・推論の分離仮説を支持する**: Wang+ NeurIPS 2025 は、推論能力の向上に必要なのは多量の問題データではなく、品質の高い問題を深く繰り返し考える経験であると論じる。これは [[強化学習スケーリング]] が「多ドメイン訓練データでのスケーリング」を重要視するのと対照的で、少データ設定でもエントロピー正則化と問題選択があれば同等の到達点に達せるという知見を加える。(Source: [[joisino-訓練データ1個推論性能倍-2025]]) - **エントロピー増大正則化は内省語の自発的創発を通じて推論の頑健性を生む**: 通常の 1 問過学習では訓練データに適合後に進歩が止まる。エントロピー正則化は「正答率を保ちながらさらに多様化する」圧力をかけ、思考崩壊（ハングル混入等）でも最終的に正答にたどり着く回復力の習得を促す。この現象は [[検証可能報酬による強化学習]] における CoT の長さとエントロピーの段階的増大と対応する。(Source: [[joisino-訓練データ1個推論性能倍-2025]]) ## 未解決の問い - 問題選択の「報酬分散最大化」基準は有効だが、訓練コストをかけずに事前に選ぶ代替基準（問題の表面的特徴・難易度・解法多様性）と性能の対応はあるか。 - 数学ドメインで成立したこの結果は、コード生成・論理推論・多段計画など他のドメインに転移するか。ドメインの検証可能性の強さが重要な条件か。 - エントロピー増大正則化の係数はどう設定すべきか。過度に大きいとエントロピー崩壊（思考の永続的な混乱）になるリスクはあるか。 - 1 問 RLVR で「獲得できる能力の上限」は全データ RLVR と同じか、あるいは上限が異なり特定の問題タイプで差が生じるか。 - 内省語の習得メカニズムを直接制御（SFT でコールドスタートとして内省語を埋め込む）した場合、1 問 RLVR の効率はさらに上がるか。 ## 関連 - 上位概念: [[検証可能報酬による強化学習]]・[[強化ファインチューニング]] - 隣接: [[強化学習スケーリング]]（データ量とスケーリングの観点） - ソース: [[joisino-訓練データ1個推論性能倍-2025]] - 関連 MOC: [[structures/000 Index]] ## 出典 - [[joisino-訓練データ1個推論性能倍-2025]] — Wang+ NeurIPS 2025 の解説。1 問 RLVR の設定・実験結果・エントロピー正則化の役割を詳述。