# Nemotron 3: Efficient and Open Intelligence
(Source: [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]])
## 論文情報
- **著者**: [[NVIDIA]](100 名超のコントリビュータ、リーダーシップに Bryan Catanzaro・Mohammad Shoeybi・Boris Ginsburg ほか)
- **発表**: arXiv:2512.20856, 2025-12-25
- **キーワード**: Mamba-2, Transformer, [[Mixture-of-Experts]], LatentMoE, MTP, NVFP4, マルチ環境 RL
## 概要
[[NVIDIA]] が発表した Nemotron 3 は、Nano(30B 総パラメータ/3B 活性化)・Super・Ultra の 3 モデルからなるオープン LLM ファミリーである。ハイブリッド Mamba–Transformer MoE アーキテクチャにより、エージェント型 AI・推論・対話に必要な精度と推論スループットを両立する。モデル重み・10 兆トークン超のデータセット・訓練レシピを公開する方針を掲げる。
## 問題設定
エージェント型 AI アプリケーションでは、高精度な推論能力と高スループットな推論の両立が要求される。標準的な Transformer MoE は Self-Attention の KV キャッシュが線形に増大するため、推論時のメモリ帯域とスループットがボトルネックとなる。また、長コンテキスト(最大 100 万トークン)の処理、低精度訓練の安定化、異種 RL 環境の同時最適化も未解決課題であった。
## 提案手法
### 1. ハイブリッド Mamba–Transformer MoE アーキテクチャ
MoE 層の間に Self-Attention 層ではなく Mamba-2 層を主として挿入する。Mamba-2 はリカレント構造により生成時に定数状態のみを保持し、Self-Attention の線形増大する KV キャッシュを回避する。少数の Self-Attention 層のみを残し、全対全の情報ルーティングの忠実度を確保する。Nano(30B-A3B)では Mamba-2+MoE が大部分を占め、Self-Attention 層は最小限である。
### 2. LatentMoE
トークン埋め込みを隠れ次元 d から潜在次元 ℓ(ℓ < d、典型的に d/ℓ ≈ 4)へ射影してからエキスパートにルーティングし、計算後に d 次元へ戻す。これにより以下を実現する。
- エキスパートごとの重み読み込みと All-to-All 通信量を d/ℓ 倍削減
- 浮いた計算予算でエキスパート総数を N から N·d/ℓ(128→512)、活性化エキスパート数を K から K·d/ℓ(6→22)へ増加
- 非線形バジェット K×m を維持しつつ精度向上
8B 活性化/73B 総パラメータ、1T トークン訓練の比較で、LatentMoE は標準 MoE を MMLU-Pro(+4.57pp)・Code(+3.19pp)・Math(+1.87pp)の全評価タスクで上回った。
### 3. マルチトークン予測(MTP)
DeepSeek-V3 に倣い、複数の将来トークンを同時に予測する補助損失を導入する。8B 活性化 MoE モデルで平均 2.4% の精度向上を達成し、投機的復号のドラフトトークンとしても機能する。最初の 2 トークンの承認率は約 97% であり、バッチサイズ 1 やロングフォーム生成での高速化に寄与する。
### 4. NVFP4 事前学習
NVFP4 フォーマット(E2M1 要素・16 要素マイクロブロックスケーリング・E4M3 ブロックスケーリング因子・FP32 グローバルスケール)で重み・活性化・勾配をネイティブ FP4 GEMM で訓練する。25T トークンまで安定訓練を確認した。GB300 では FP4 ピークスループットが FP8 比 3 倍である。主な安定化手法は以下のとおり。
- Self-Attention の QKV・Attention 射影を BF16 に保持(少数の Self-Attention 層の忠実度確保)
- Mamba 出力射影は MXFP8 に保持(NVFP4 ではゼロフラッシュが最大 40%)
- 末尾 15% のネットワーク層を高精度に保持
- 勾配に確率的丸め(stochastic rounding)、wgrad 入力にランダムアダマール変換(RHT)を適用
A8B モデルで BF16 比の損失差は 0.6% 未満に抑えられ、下流タスク評価は同等であった。
### 5. 長コンテキスト(最大 100 万トークン)
Self-Attention に RoPE を使用しない設計(Mamba 層が暗黙的な位置情報を提供)により、RoPE の分布外問題を回避する。継続事前学習(512k 系列長)→ SFT(256k)→ RL(32k 入力)の段階を踏む。MoE ハイブリッドアーキテクチャは密ハイブリッド(Nemotron 2 Nano 12B)よりコンテキスト延長に頑健であり、512k→1M での RULER スコアの劣化が穏やかである(23.43 対 54.19)。
### 6. マルチ環境 RL ポストトレーニング
数学・科学推論、競技コーディング、指示遵守、ソフトウェアエンジニアリング、検索、チャット、汎用エージェント型ツール利用、長コンテキストなどの多様な RL 環境を同時に最適化する。従来の段階的手法(Nemotron 2 等)はある能力の劣化を招くが、同時訓練は安定性が高く報酬ハッキングも少ない。
- 学習アルゴリズム: [[GRPO]](マスク付き重要度サンプリング)
- 推論と訓練を切り離す非同期 RL アーキテクチャ + MTP によるロールアウト生成の加速
- ソフトウェアスタック: NeMo-RL(訓練)・NeMo-Gym(環境群)を Apache 2.0 で公開
### 7. 推論バジェット制御
推論時にユーザーが思考トレースの最大トークン数を指定できる。バジェット到達時に `</think>` トークンを挿入し、部分的な思考トレースに基づいて応答を生成する。精度とトークン数のトレードオフをユーザーが細粒度で制御可能にする。
## 新規性
- **LatentMoE**: 潜在空間でのエキスパート計算と通信の同時削減により、推論コスト一定で精度を向上させるハードウェア認識型のエキスパート設計
- **NVFP4 ネイティブ事前学習**: BF16 GEMM のシミュレーションでなく cuBLAS バックエンドのネイティブ FP4 GEMM を用いた初の安定的大規模事前学習
- **RoPE 不使用の長コンテキスト**: Mamba の暗黙的位置情報を活用し、RoPE の分布外問題を根本的に回避
- **マルチ環境同時 RL**: 段階的手法から同時最適化への転換
## 実験設定
- **Nano**: 30B 総パラメータ/3B 活性化、ハイブリッド Mamba-Transformer MoE
- **アブレーション**: 8B 活性化 Transformer MoE ベースモデル、1T トークン
- **LatentMoE 比較**: 標準 MoE(128 エキスパート/6 活性化)対 LatentMoE(512 エキスパート/22 活性化)、同一ハイパーパラメータ・1T トークン
- **NVFP4 比較**: BF16 対 NVFP4、A3B と A8B の 2 スケール
- **ベンチマーク**: Arena-Hard-v2, AIME25, IFBench, τ-Bench, SWE-Bench, LiveCodeBench v6, RULER@1M, MMLU, MMLU-Pro, GSM8K, MATH-500, HumanEval, MBPP, ARC-Challenge, WinoGrande, RACE
## 実験結果
- **スループット**: Nano 30B-A3B は Qwen3-30B-A3B 比 3.3 倍の推論スループット(ISL/OSL 8k/16k)
- **精度**: Nano は τ-Bench(ツール利用)99.2%、AIME25 89.1%、IFBench 91.7%、Arena-Hard 67.7% で同規模モデルを上回る
- **LatentMoE 対標準 MoE**: 全 5 カテゴリで LatentMoE が優位(MMLU-Pro 48.30→52.87、Code 51.95→55.14、Math 78.32→80.19)
- **MTP**: 平均 2.4% の精度向上、投機的復号で最初の 2 トークンの承認率約 97%
- **NVFP4**: A8B モデルで BF16 比の損失差 0.6% 未満、下流タスク評価でほぼ同等
- **長コンテキスト**: RULER@1M で Nano 54.19(Nemotron 2 Nano 12B Dense は 23.43)
- **マルチ環境 RL**: 500 ステップの RL 訓練で全ベンチマークが単調に改善
## 考察
Nemotron 3 は「推論効率と精度のパレートフロンティアを押し広げる」というゴールの下に、アーキテクチャ(Mamba-2 で KV キャッシュ削減)・エキスパート設計(LatentMoE で通信/帯域削減を精度に還元)・数値精度(NVFP4 で次世代ハードウェアの計算密度を活用)・後訓練(マルチ環境同時 RL で能力の劣化を回避)を一貫して推論効率に寄せた設計となっている。特に LatentMoE の「通信・帯域を削減して浮いた予算でエキスパート多様性を増す」というトレードオフの再配分は、MoE の All-to-All ボトルネック問題に対するアーキテクチャ側からの回答である。
## 強み
- アーキテクチャからポストトレーニングまでの一貫した推論効率重視設計
- LatentMoE は MoE の「エキスパート数と通信コストのジレンマ」を次元削減で解消する明快な設計
- NVFP4 のネイティブ GEMM による大規模安定訓練は、次世代ハードウェア(Blackwell Ultra)活用の先行事例
- モデル重み・データ・レシピ・ソフトウェアのオープン公開の方針
- マルチ環境同時 RL は段階的アプローチの能力劣化問題を構造的に解消
## 弱点・限界
- Super・Ultra の定量評価は本ホワイトペーパーには含まれず、Nano の結果が主体
- 訓練インフラ(GPU 数・訓練日数・MFU 等)の詳細が記載されず、再現性が限定的
- LatentMoE の潜在次元 ℓ の設計指針(d/ℓ の最適比)は 1 点(d/ℓ=4)のみで、感度分析が不足
- NVFP4 の安定化手法(敏感層の高精度保持)はヒューリスティックであり、アーキテクチャ依存性が高い
- ベンチマーク比較の対象が Qwen3-30B-A3B・GPT-OSS-20B-A4B に限定され、Llama・Gemma 等との比較がない