# Qwen3
Alibaba の Qwen チームが 2025 年に公開したオープンウェイト LLM シリーズ。Dense 7 モデル(0.6B・1.7B・4B・8B・14B・32B)と MoE 2 モデル(30B-A3B・235B-A22B)を提供。
## Dense モデルの特徴
- **深い設計**: Llama 3 と比べ層数が多く(深い)、アテンションヘッド数が少ない(狭い)。
- **QK-Norm**: アテンション内部の Q/K に RMSNorm を適用。
- **GQA**: 全サイズで Grouped-Query Attention を採用。
- 0.6B モデルは現世代で最小クラスのオープンウェイトモデルの一つ。
## MoE モデルの特徴
- 235B-A22B は DeepSeek V3 と非常に類似するアーキテクチャ。
- **共有エキスパートを廃止**: 以前の Qwen2.5-MoE では採用していたが Qwen3 で廃止。開発者(Junyang Lin)曰く「有意な改善が見られず、推論最適化への懸念もあった」。この決定は DeepSeek V3(共有エキスパートあり)との対比として注目される。
- エキスパートあたりのサイズは DeepSeek V3 より大きく、数は少ない傾向。
## Qwen3-Next との関係
[[Qwen3-Next]](2025-09 公開)は Qwen3 アーキテクチャを Gated DeltaNet ハイブリッドと MTP で刷新。廃止していた共有エキスパートも再導入した。
## 関連
- エンティティ: [[Qwen3-Next]]
- 概念: [[Mixture-of-Experts]] / [[QK-Norm]] / [[Grouped-Query Attention]]
- ソース: [[The Big LLM Architecture Comparison]]