# NeMo-RL
[[NVIDIA]] が Apache 2.0 で公開するスケーラブルな RL 訓練フレームワーク(github.com/NVIDIA-NeMo/RL)。[[Nemotron 3]] のマルチ環境 RL ポストトレーニングを実装し、推論と訓練を切り離す非同期 RL アーキテクチャを提供する。環境群は NeMo-Gym(github.com/NVIDIA-NeMo/Gym)として別途公開される。[[GRPO]] をベースにマスク付き重要度サンプリングを用いて安定訓練を実現する。