# Nemotron 3: Efficient and Open Intelligence (Source: [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]) ## 論文情報 - **著者**: [[NVIDIA]](100 名超のコントリビュータ、リーダーシップに Bryan Catanzaro・Mohammad Shoeybi・Boris Ginsburg ほか) - **発表**: arXiv:2512.20856, 2025-12-25 - **キーワード**: Mamba-2, Transformer, [[Mixture-of-Experts]], LatentMoE, MTP, NVFP4, マルチ環境 RL ## 概要 [[NVIDIA]] が発表した Nemotron 3 は、Nano(30B 総パラメータ/3B 活性化)・Super・Ultra の 3 モデルからなるオープン LLM ファミリーである。ハイブリッド Mamba–Transformer MoE アーキテクチャにより、エージェント型 AI・推論・対話に必要な精度と推論スループットを両立する。モデル重み・10 兆トークン超のデータセット・訓練レシピを公開する方針を掲げる。 ## 問題設定 エージェント型 AI アプリケーションでは、高精度な推論能力と高スループットな推論の両立が要求される。標準的な Transformer MoE は Self-Attention の KV キャッシュが線形に増大するため、推論時のメモリ帯域とスループットがボトルネックとなる。また、長コンテキスト(最大 100 万トークン)の処理、低精度訓練の安定化、異種 RL 環境の同時最適化も未解決課題であった。 ## 提案手法 ### 1. ハイブリッド Mamba–Transformer MoE アーキテクチャ MoE 層の間に Self-Attention 層ではなく Mamba-2 層を主として挿入する。Mamba-2 はリカレント構造により生成時に定数状態のみを保持し、Self-Attention の線形増大する KV キャッシュを回避する。少数の Self-Attention 層のみを残し、全対全の情報ルーティングの忠実度を確保する。Nano(30B-A3B)では Mamba-2+MoE が大部分を占め、Self-Attention 層は最小限である。 ### 2. LatentMoE トークン埋め込みを隠れ次元 d から潜在次元 ℓ(ℓ < d、典型的に d/ℓ ≈ 4)へ射影してからエキスパートにルーティングし、計算後に d 次元へ戻す。これにより以下を実現する。 - エキスパートごとの重み読み込みと All-to-All 通信量を d/ℓ 倍削減 - 浮いた計算予算でエキスパート総数を N から N·d/ℓ(128→512)、活性化エキスパート数を K から K·d/ℓ(6→22)へ増加 - 非線形バジェット K×m を維持しつつ精度向上 8B 活性化/73B 総パラメータ、1T トークン訓練の比較で、LatentMoE は標準 MoE を MMLU-Pro(+4.57pp)・Code(+3.19pp)・Math(+1.87pp)の全評価タスクで上回った。 ### 3. マルチトークン予測(MTP) DeepSeek-V3 に倣い、複数の将来トークンを同時に予測する補助損失を導入する。8B 活性化 MoE モデルで平均 2.4% の精度向上を達成し、投機的復号のドラフトトークンとしても機能する。最初の 2 トークンの承認率は約 97% であり、バッチサイズ 1 やロングフォーム生成での高速化に寄与する。 ### 4. NVFP4 事前学習 NVFP4 フォーマット(E2M1 要素・16 要素マイクロブロックスケーリング・E4M3 ブロックスケーリング因子・FP32 グローバルスケール)で重み・活性化・勾配をネイティブ FP4 GEMM で訓練する。25T トークンまで安定訓練を確認した。GB300 では FP4 ピークスループットが FP8 比 3 倍である。主な安定化手法は以下のとおり。 - Self-Attention の QKV・Attention 射影を BF16 に保持(少数の Self-Attention 層の忠実度確保) - Mamba 出力射影は MXFP8 に保持(NVFP4 ではゼロフラッシュが最大 40%) - 末尾 15% のネットワーク層を高精度に保持 - 勾配に確率的丸め(stochastic rounding)、wgrad 入力にランダムアダマール変換(RHT)を適用 A8B モデルで BF16 比の損失差は 0.6% 未満に抑えられ、下流タスク評価は同等であった。 ### 5. 長コンテキスト(最大 100 万トークン) Self-Attention に RoPE を使用しない設計(Mamba 層が暗黙的な位置情報を提供)により、RoPE の分布外問題を回避する。継続事前学習(512k 系列長)→ SFT(256k)→ RL(32k 入力)の段階を踏む。MoE ハイブリッドアーキテクチャは密ハイブリッド(Nemotron 2 Nano 12B)よりコンテキスト延長に頑健であり、512k→1M での RULER スコアの劣化が穏やかである(23.43 対 54.19)。 ### 6. マルチ環境 RL ポストトレーニング 数学・科学推論、競技コーディング、指示遵守、ソフトウェアエンジニアリング、検索、チャット、汎用エージェント型ツール利用、長コンテキストなどの多様な RL 環境を同時に最適化する。従来の段階的手法(Nemotron 2 等)はある能力の劣化を招くが、同時訓練は安定性が高く報酬ハッキングも少ない。 - 学習アルゴリズム: [[GRPO]](マスク付き重要度サンプリング) - 推論と訓練を切り離す非同期 RL アーキテクチャ + MTP によるロールアウト生成の加速 - ソフトウェアスタック: NeMo-RL(訓練)・NeMo-Gym(環境群)を Apache 2.0 で公開 ### 7. 推論バジェット制御 推論時にユーザーが思考トレースの最大トークン数を指定できる。バジェット到達時に `</think>` トークンを挿入し、部分的な思考トレースに基づいて応答を生成する。精度とトークン数のトレードオフをユーザーが細粒度で制御可能にする。 ## 新規性 - **LatentMoE**: 潜在空間でのエキスパート計算と通信の同時削減により、推論コスト一定で精度を向上させるハードウェア認識型のエキスパート設計 - **NVFP4 ネイティブ事前学習**: BF16 GEMM のシミュレーションでなく cuBLAS バックエンドのネイティブ FP4 GEMM を用いた初の安定的大規模事前学習 - **RoPE 不使用の長コンテキスト**: Mamba の暗黙的位置情報を活用し、RoPE の分布外問題を根本的に回避 - **マルチ環境同時 RL**: 段階的手法から同時最適化への転換 ## 実験設定 - **Nano**: 30B 総パラメータ/3B 活性化、ハイブリッド Mamba-Transformer MoE - **アブレーション**: 8B 活性化 Transformer MoE ベースモデル、1T トークン - **LatentMoE 比較**: 標準 MoE(128 エキスパート/6 活性化)対 LatentMoE(512 エキスパート/22 活性化)、同一ハイパーパラメータ・1T トークン - **NVFP4 比較**: BF16 対 NVFP4、A3B と A8B の 2 スケール - **ベンチマーク**: Arena-Hard-v2, AIME25, IFBench, τ-Bench, SWE-Bench, LiveCodeBench v6, RULER@1M, MMLU, MMLU-Pro, GSM8K, MATH-500, HumanEval, MBPP, ARC-Challenge, WinoGrande, RACE ## 実験結果 - **スループット**: Nano 30B-A3B は Qwen3-30B-A3B 比 3.3 倍の推論スループット(ISL/OSL 8k/16k) - **精度**: Nano は τ-Bench(ツール利用)99.2%、AIME25 89.1%、IFBench 91.7%、Arena-Hard 67.7% で同規模モデルを上回る - **LatentMoE 対標準 MoE**: 全 5 カテゴリで LatentMoE が優位(MMLU-Pro 48.30→52.87、Code 51.95→55.14、Math 78.32→80.19) - **MTP**: 平均 2.4% の精度向上、投機的復号で最初の 2 トークンの承認率約 97% - **NVFP4**: A8B モデルで BF16 比の損失差 0.6% 未満、下流タスク評価でほぼ同等 - **長コンテキスト**: RULER@1M で Nano 54.19(Nemotron 2 Nano 12B Dense は 23.43) - **マルチ環境 RL**: 500 ステップの RL 訓練で全ベンチマークが単調に改善 ## 考察 Nemotron 3 は「推論効率と精度のパレートフロンティアを押し広げる」というゴールの下に、アーキテクチャ(Mamba-2 で KV キャッシュ削減)・エキスパート設計(LatentMoE で通信/帯域削減を精度に還元)・数値精度(NVFP4 で次世代ハードウェアの計算密度を活用)・後訓練(マルチ環境同時 RL で能力の劣化を回避)を一貫して推論効率に寄せた設計となっている。特に LatentMoE の「通信・帯域を削減して浮いた予算でエキスパート多様性を増す」というトレードオフの再配分は、MoE の All-to-All ボトルネック問題に対するアーキテクチャ側からの回答である。 ## 強み - アーキテクチャからポストトレーニングまでの一貫した推論効率重視設計 - LatentMoE は MoE の「エキスパート数と通信コストのジレンマ」を次元削減で解消する明快な設計 - NVFP4 のネイティブ GEMM による大規模安定訓練は、次世代ハードウェア(Blackwell Ultra)活用の先行事例 - モデル重み・データ・レシピ・ソフトウェアのオープン公開の方針 - マルチ環境同時 RL は段階的アプローチの能力劣化問題を構造的に解消 ## 弱点・限界 - Super・Ultra の定量評価は本ホワイトペーパーには含まれず、Nano の結果が主体 - 訓練インフラ(GPU 数・訓練日数・MFU 等)の詳細が記載されず、再現性が限定的 - LatentMoE の潜在次元 ℓ の設計指針(d/ℓ の最適比)は 1 点(d/ℓ=4)のみで、感度分析が不足 - NVFP4 の安定化手法(敏感層の高精度保持)はヒューリスティックであり、アーキテクチャ依存性が高い - ベンチマーク比較の対象が Qwen3-30B-A3B・GPT-OSS-20B-A4B に限定され、Llama・Gemma 等との比較がない