NeMo-RL - yuuk1's Digital Garden

# NeMo-RL [[NVIDIA]] が Apache 2.0 で公開するスケーラブルな RL 訓練フレームワーク（github.com/NVIDIA-NeMo/RL）。[[Nemotron 3]] のマルチ環境 RL ポストトレーニングを実装し、推論と訓練を切り離す非同期 RL アーキテクチャを提供する。環境群は NeMo-Gym（github.com/NVIDIA-NeMo/Gym）として別途公開される。[[GRPO]] をベースにマスク付き重要度サンプリングを用いて安定訓練を実現する。