Qwen3-Next - yuuk1's Digital Garden

# Qwen3-Next Qwen チームが 2025 年 9 月 11 日に公開した 80B-A3B モデル(Instruct / Thinking 両バリアント)。[[Qwen3]] の後継で線形アテンションハイブリッドを採用。 ## 主要アーキテクチャ変更 - **Gated DeltaNet + Gated Attention ハイブリッド(3:1)**: [[Gated DeltaNet]] と Gated Attention を 3:1 比率で交互配置。ネイティブ 262k コンテキスト長(Qwen3 235B-A22B の 32k / YaRN 拡張 131k から大幅拡張)。 - **共有エキスパート復活**: Qwen3 で廃止した共有エキスパートを再導入。エキスパート数も 4 倍増(以前のモデル比)。 - **MTP(マルチトークン予測)**: 訓練だけでなく投機的デコーディングにも利用。マルチステップ訓練で訓練・推論の一貫性を確保。 ## Qwen3-Coder-Next 2026 年 2 月公開の 80B コーディング特化モデル。Qwen3-Next と同一アーキテクチャ(Qwen3-Next をベースに継続訓練)。 - DeepSeek V3.2(37B 活性化)・Kimi K2.5・GLM-7.5 を SWE-bench 等のコーディングタスクで上回る。 - Claude Sonnet 4.5 と同等・Claude Opus 4.5 をわずかに下回る SWE-Bench Pro 性能(オープンウェイトとして顕著)。 ## 関連 - エンティティ: [[Qwen3]] - 概念: [[Gated DeltaNet]] / [[マルチトークン予測]] / [[Mixture-of-Experts]] - ソース: [[The Big LLM Architecture Comparison]]