Mistral 3 - yuuk1's Digital Garden

# Mistral 3 Mistral AI が 2025 年 12 月 2 日に公開したモデルシリーズ。Mixtral(2023)以来初の MoE モデルを含む。 ## ラインアップ - **Ministral 3**: 小型密モデル(3B・8B・14B) - **Mistral 3 Large**: 675B パラメータ MoE(39B 活性化 + 2.5B ビジョンエンコーダ) ## アーキテクチャ(Mistral 3 Large) - **DeepSeek V3 と同一アーキテクチャ**: [[DeepSeek-V3]] の設計をそのまま採用。主な差異はエキスパートサイズ比率のみ。 - DeepSeek V3: 256 エキスパート・各サイズ 2048 - Mistral 3 Large: 128 エキスパート・各サイズ 4096 (エキスパート数半減・サイズ 2 倍) - **MLA**: DeepSeek V3 同様 Multi-Head Latent Attention を採用。 - **ビジョンエンコーダ**: マルチモーダル対応(DeepSeek V3.2 は text-only)。 - 独自トークナイザを使用(DeepSeek から独立して一から訓練したことを示唆)。 ## 特記事項 - NVIDIA と連携し Blackwell チップでの最適化実施。Ministral シリーズは比較モデルより高いトークン/秒スループット。 - DeepSeek V3.2 リリース(2025-12-01)の翌日(12-02)に発表。同規模(671B vs 673B)の偶然の競合。 - 技術報告書なし。Kimi K2 と Mistral 3 はいずれも DeepSeek V3 アーキテクチャを採用しており、アーキテクチャ普及のケーススタディとなっている。 ## 関連 - エンティティ: [[DeepSeek-V3]] - 概念: [[Mixture-of-Experts]] / [[Multi-Head Latent Attention]] - ソース: [[The Big LLM Architecture Comparison]]