@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence

# Nemotron 3: Efficient and Open Intelligence (Source: [[@2025__arXiv__Nemotron 3 - Efficient and Open Intelligence]]) ## 論文情報 - **著者**: [[NVIDIA]]（100 名超のコントリビュータ、リーダーシップに Bryan Catanzaro・Mohammad Shoeybi・Boris Ginsburg ほか） - **発表**: arXiv:2512.20856, 2025-12-25 - **キーワード**: Mamba-2, Transformer, [[Mixture-of-Experts]], LatentMoE, MTP, NVFP4, マルチ環境 RL ## 概要 [[NVIDIA]] が発表した Nemotron 3 は、Nano（30B 総パラメータ/3B 活性化）・Super・Ultra の 3 モデルからなるオープン LLM ファミリーである。ハイブリッド Mamba–Transformer MoE アーキテクチャにより、エージェント型 AI・推論・対話に必要な精度と推論スループットを両立する。モデル重み・10 兆トークン超のデータセット・訓練レシピを公開する方針を掲げる。 ## 問題設定エージェント型 AI アプリケーションでは、高精度な推論能力と高スループットな推論の両立が要求される。標準的な Transformer MoE は Self-Attention の KV キャッシュが線形に増大するため、推論時のメモリ帯域とスループットがボトルネックとなる。また、長コンテキスト（最大 100 万トークン）の処理、低精度訓練の安定化、異種 RL 環境の同時最適化も未解決課題であった。 ## 提案手法 ### 1. ハイブリッド Mamba–Transformer MoE アーキテクチャ MoE 層の間に Self-Attention 層ではなく Mamba-2 層を主として挿入する。Mamba-2 はリカレント構造により生成時に定数状態のみを保持し、Self-Attention の線形増大する KV キャッシュを回避する。少数の Self-Attention 層のみを残し、全対全の情報ルーティングの忠実度を確保する。Nano(30B-A3B)では Mamba-2+MoE が大部分を占め、Self-Attention 層は最小限である。 ### 2. LatentMoE トークン埋め込みを隠れ次元 d から潜在次元 ℓ（ℓ < d、典型的に d/ℓ ≈ 4）へ射影してからエキスパートにルーティングし、計算後に d 次元へ戻す。これにより以下を実現する。 - エキスパートごとの重み読み込みと All-to-All 通信量を d/ℓ 倍削減 - 浮いた計算予算でエキスパート総数を N から N·d/ℓ（128→512）、活性化エキスパート数を K から K·d/ℓ（6→22）へ増加 - 非線形バジェット K×m を維持しつつ精度向上 8B 活性化/73B 総パラメータ、1T トークン訓練の比較で、LatentMoE は標準 MoE を MMLU-Pro（+4.57pp）・Code（+3.19pp）・Math（+1.87pp）の全評価タスクで上回った。 ### 3. マルチトークン予測（MTP） DeepSeek-V3 に倣い、複数の将来トークンを同時に予測する補助損失を導入する。8B 活性化 MoE モデルで平均 2.4% の精度向上を達成し、投機的復号のドラフトトークンとしても機能する。最初の 2 トークンの承認率は約 97% であり、バッチサイズ 1 やロングフォーム生成での高速化に寄与する。 ### 4. NVFP4 事前学習 NVFP4 フォーマット（E2M1 要素・16 要素マイクロブロックスケーリング・E4M3 ブロックスケーリング因子・FP32 グローバルスケール）で重み・活性化・勾配をネイティブ FP4 GEMM で訓練する。25T トークンまで安定訓練を確認した。GB300 では FP4 ピークスループットが FP8 比 3 倍である。主な安定化手法は以下のとおり。 - Self-Attention の QKV・Attention 射影を BF16 に保持（少数の Self-Attention 層の忠実度確保） - Mamba 出力射影は MXFP8 に保持（NVFP4 ではゼロフラッシュが最大 40%） - 末尾 15% のネットワーク層を高精度に保持 - 勾配に確率的丸め(stochastic rounding)、wgrad 入力にランダムアダマール変換(RHT)を適用 A8B モデルで BF16 比の損失差は 0.6% 未満に抑えられ、下流タスク評価は同等であった。 ### 5. 長コンテキスト（最大 100 万トークン） Self-Attention に RoPE を使用しない設計（Mamba 層が暗黙的な位置情報を提供）により、RoPE の分布外問題を回避する。継続事前学習（512k 系列長）→ SFT（256k）→ RL（32k 入力）の段階を踏む。MoE ハイブリッドアーキテクチャは密ハイブリッド（Nemotron 2 Nano 12B）よりコンテキスト延長に頑健であり、512k→1M での RULER スコアの劣化が穏やかである（23.43 対 54.19）。 ### 6. マルチ環境 RL ポストトレーニング数学・科学推論、競技コーディング、指示遵守、ソフトウェアエンジニアリング、検索、チャット、汎用エージェント型ツール利用、長コンテキストなどの多様な RL 環境を同時に最適化する。従来の段階的手法（Nemotron 2 等）はある能力の劣化を招くが、同時訓練は安定性が高く報酬ハッキングも少ない。 - 学習アルゴリズム: [[GRPO]]（マスク付き重要度サンプリング） - 推論と訓練を切り離す非同期 RL アーキテクチャ + MTP によるロールアウト生成の加速 - ソフトウェアスタック: NeMo-RL（訓練）・NeMo-Gym（環境群）を Apache 2.0 で公開 ### 7. 推論バジェット制御推論時にユーザーが思考トレースの最大トークン数を指定できる。バジェット到達時に `</think>` トークンを挿入し、部分的な思考トレースに基づいて応答を生成する。精度とトークン数のトレードオフをユーザーが細粒度で制御可能にする。 **Figure 1: 図** ![[_attachments/arxiv-2512.20856/fig1-figure.png]] (Figure 1. 論文中の主要な図を示す。) **Figure 3: アーキテクチャ** ![[_attachments/arxiv-2512.20856/fig3-architecture.png]] (Figure 3. Figure 3 | Standard MoE vs. LatentMoE architectures. In LatentMoE, tokens are projected from に関するアーキテクチャを示す。) **Figure 7: 図** ![[_attachments/arxiv-2512.20856/fig7-figure.png]] (Figure 7. Figure 7 | Multi-environment RL training: within a single RL run several different environments を示す。) ## 新規性 - **LatentMoE**: 潜在空間でのエキスパート計算と通信の同時削減により、推論コスト一定で精度を向上させるハードウェア認識型のエキスパート設計 - **NVFP4 ネイティブ事前学習**: BF16 GEMM のシミュレーションでなく cuBLAS バックエンドのネイティブ FP4 GEMM を用いた初の安定的大規模事前学習 - **RoPE 不使用の長コンテキスト**: Mamba の暗黙的位置情報を活用し、RoPE の分布外問題を根本的に回避 - **マルチ環境同時 RL**: 段階的手法から同時最適化への転換 ## 実験設定 - **Nano**: 30B 総パラメータ/3B 活性化、ハイブリッド Mamba-Transformer MoE - **アブレーション**: 8B 活性化 Transformer MoE ベースモデル、1T トークン - **LatentMoE 比較**: 標準 MoE（128 エキスパート/6 活性化）対 LatentMoE（512 エキスパート/22 活性化）、同一ハイパーパラメータ・1T トークン - **NVFP4 比較**: BF16 対 NVFP4、A3B と A8B の 2 スケール - **ベンチマーク**: Arena-Hard-v2, AIME25, IFBench, τ-Bench, SWE-Bench, LiveCodeBench v6, RULER@1M, MMLU, MMLU-Pro, GSM8K, MATH-500, HumanEval, MBPP, ARC-Challenge, WinoGrande, RACE ## 実験結果 - **スループット**: Nano 30B-A3B は Qwen3-30B-A3B 比 3.3 倍の推論スループット（ISL/OSL 8k/16k） - **精度**: Nano は τ-Bench（ツール利用）99.2%、AIME25 89.1%、IFBench 91.7%、Arena-Hard 67.7% で同規模モデルを上回る - **LatentMoE 対標準 MoE**: 全 5 カテゴリで LatentMoE が優位（MMLU-Pro 48.30→52.87、Code 51.95→55.14、Math 78.32→80.19） - **MTP**: 平均 2.4% の精度向上、投機的復号で最初の 2 トークンの承認率約 97% - **NVFP4**: A8B モデルで BF16 比の損失差 0.6% 未満、下流タスク評価でほぼ同等 - **長コンテキスト**: RULER@1M で Nano 54.19（Nemotron 2 Nano 12B Dense は 23.43） - **マルチ環境 RL**: 500 ステップの RL 訓練で全ベンチマークが単調に改善 ## 考察 Nemotron 3 は「推論効率と精度のパレートフロンティアを押し広げる」というゴールの下に、アーキテクチャ（Mamba-2 で KV キャッシュ削減）・エキスパート設計（LatentMoE で通信/帯域削減を精度に還元）・数値精度（NVFP4 で次世代ハードウェアの計算密度を活用）・後訓練（マルチ環境同時 RL で能力の劣化を回避）を一貫して推論効率に寄せた設計となっている。特に LatentMoE の「通信・帯域を削減して浮いた予算でエキスパート多様性を増す」というトレードオフの再配分は、MoE の All-to-All ボトルネック問題に対するアーキテクチャ側からの回答である。 ## 強み - アーキテクチャからポストトレーニングまでの一貫した推論効率重視設計 - LatentMoE は MoE の「エキスパート数と通信コストのジレンマ」を次元削減で解消する明快な設計 - NVFP4 のネイティブ GEMM による大規模安定訓練は、次世代ハードウェア（Blackwell Ultra）活用の先行事例 - モデル重み・データ・レシピ・ソフトウェアのオープン公開の方針 - マルチ環境同時 RL は段階的アプローチの能力劣化問題を構造的に解消 ## 弱点・限界 - Super・Ultra の定量評価は本ホワイトペーパーには含まれず、Nano の結果が主体 - 訓練インフラ（GPU 数・訓練日数・MFU 等）の詳細が記載されず、再現性が限定的 - LatentMoE の潜在次元 ℓ の設計指針（d/ℓ の最適比）は 1 点（d/ℓ=4）のみで、感度分析が不足 - NVFP4 の安定化手法（敏感層の高精度保持）はヒューリスティックであり、アーキテクチャ依存性が高い - ベンチマーク比較の対象が Qwen3-30B-A3B・GPT-OSS-20B-A4B に限定され、Llama・Gemma 等との比較がない