Qwen3 - yuuk1's Digital Garden

# Qwen3 Alibaba の Qwen チームが 2025 年に公開したオープンウェイト LLM シリーズ。Dense 7 モデル(0.6B・1.7B・4B・8B・14B・32B)と MoE 2 モデル(30B-A3B・235B-A22B)を提供。 ## Dense モデルの特徴 - **深い設計**: Llama 3 と比べ層数が多く(深い)、アテンションヘッド数が少ない(狭い)。 - **QK-Norm**: アテンション内部の Q/K に RMSNorm を適用。 - **GQA**: 全サイズで Grouped-Query Attention を採用。 - 0.6B モデルは現世代で最小クラスのオープンウェイトモデルの一つ。 ## MoE モデルの特徴 - 235B-A22B は DeepSeek V3 と非常に類似するアーキテクチャ。 - **共有エキスパートを廃止**: 以前の Qwen2.5-MoE では採用していたが Qwen3 で廃止。開発者(Junyang Lin)曰く「有意な改善が見られず、推論最適化への懸念もあった」。この決定は DeepSeek V3(共有エキスパートあり)との対比として注目される。 - エキスパートあたりのサイズは DeepSeek V3 より大きく、数は少ない傾向。 ## Qwen3-Next との関係 [[Qwen3-Next]](2025-09 公開)は Qwen3 アーキテクチャを Gated DeltaNet ハイブリッドと MTP で刷新。廃止していた共有エキスパートも再導入した。 ## 関連 - エンティティ: [[Qwen3-Next]] - 概念: [[Mixture-of-Experts]] / [[QK-Norm]] / [[Grouped-Query Attention]] - ソース: [[The Big LLM Architecture Comparison]]