# Mistral 3
Mistral AI が 2025 年 12 月 2 日に公開したモデルシリーズ。Mixtral(2023)以来初の MoE モデルを含む。
## ラインアップ
- **Ministral 3**: 小型密モデル(3B・8B・14B)
- **Mistral 3 Large**: 675B パラメータ MoE(39B 活性化 + 2.5B ビジョンエンコーダ)
## アーキテクチャ(Mistral 3 Large)
- **DeepSeek V3 と同一アーキテクチャ**: [[DeepSeek-V3]] の設計をそのまま採用。主な差異はエキスパートサイズ比率のみ。
- DeepSeek V3: 256 エキスパート・各サイズ 2048
- Mistral 3 Large: 128 エキスパート・各サイズ 4096 (エキスパート数半減・サイズ 2 倍)
- **MLA**: DeepSeek V3 同様 Multi-Head Latent Attention を採用。
- **ビジョンエンコーダ**: マルチモーダル対応(DeepSeek V3.2 は text-only)。
- 独自トークナイザを使用(DeepSeek から独立して一から訓練したことを示唆)。
## 特記事項
- NVIDIA と連携し Blackwell チップでの最適化実施。Ministral シリーズは比較モデルより高いトークン/秒スループット。
- DeepSeek V3.2 リリース(2025-12-01)の翌日(12-02)に発表。同規模(671B vs 673B)の偶然の競合。
- 技術報告書なし。Kimi K2 と Mistral 3 はいずれも DeepSeek V3 アーキテクチャを採用しており、アーキテクチャ普及のケーススタディとなっている。
## 関連
- エンティティ: [[DeepSeek-V3]]
- 概念: [[Mixture-of-Experts]] / [[Multi-Head Latent Attention]]
- ソース: [[The Big LLM Architecture Comparison]]