# Multi-Head Latent Attention (MLA) ## 定義 Multi-Head Latent Attention(MLA)は [[DeepSeek-V3|DeepSeek-V2]] で導入された、KV キャッシュメモリを削減しつつ [[Grouped-Query Attention|GQA]] より高いモデリング性能を達成するアテンション機構。 核心アイデア: K と V を低次元の潜在ベクトルに圧縮してから KV キャッシュに保存する。推論時は保存した潜在ベクトルを元の次元に逆変換してから使用するため、追加の行列積が必要だが、保存メモリは削減される。 ``` 通常 MHA: KV キャッシュ = [K, V] (full dim) MLA: KV キャッシュ = [c_KV] (compressed) → 推論時に K, V を展開 ``` Q も訓練中は圧縮されるが、推論時は非圧縮で使用する。 ## GQA との違い | 手法 | アイデア | KV キャッシュ削減 | モデリング性能 | |------|----------|------------------|----------------| | MHA | 各ヘッドが独立の K/V | なし | ベースライン | | GQA | 複数ヘッドで K/V を共有 | 共有数に比例して削減 | MHA と同等(わずかに劣る) | | MLA | K/V を低次元圧縮してキャッシュ | GQA 以上の削減 | MHA より高い | DeepSeek-V2 のアブレーション: GQA は MHA より性能が低下するが、MLA は MHA を上回る。これが DeepSeek チームが GQA ではなく MLA を採用した主な理由。 ## 採用モデル - **DeepSeek-V2**: 初導入 - **DeepSeek-V3 / R1**: 671B パラメータ MoE での本番採用 - **DeepSeek-V3.2**: 継承 - **Kimi K2**: DeepSeek V3 アーキテクチャをスケールアップ(MLA のヘッド数は削減) - **Kimi Linear**: Gated DeltaNet ハイブリッド内のフルアテンション層として使用 - **GLM-5**: 長コンテキスト推論コスト削減のため採用 採用していない主要モデル: Llama 4(GQA)、Qwen3(GQA)、Gemma 3/4(GQA)、Mistral 3(GQA) ## 横断的知見 - **MLA の普及は限定的**: MLA は理論上 GQA より優れているが、実装複雑度が高いため DeepSeek 系(V3・R1・V3.2)と Kimi K2・GLM-5・Kimi Linear への採用にとどまっている。Meta(Llama)、Google(Gemma)、Alibaba(Qwen)、Mistral は GQA を継続採用。実装コストとメリットのトレードオフが選択に影響している。 - **投機的デコーディングとの相性**: DeepSeek-V2 論文では MLA を「推論効率的な multi-query attention の変種」と位置づけ。純粋な multi-query attention は MLA の特殊ケース(圧縮次元 = 1 ヘッドの次元)であるため、MLA はキャッシュを共有しつつ表現能力を保つ。 - **Kimi Linear での NoPE との組み合わせ**: Kimi Linear は MLA 層(グローバルアテンション)で NoPE を採用。RoPE の長コンテキストにおける再調整コストを避けつつ、Kimi Delta Attention ブロックが位置情報を担う設計。 ## 未解決の問い - MLA の性能優位性は GQA 実装のどのハイパーパラメータ設定と比較したものか(ヘッド数・グループ数の選択が GQA の性能に大きく影響する)。 - 量子化(FP8/FP4)環境での MLA の精度劣化は GQA と比較してどうか。 ## 関連 - 概念: [[Grouped-Query Attention]] / [[KVキャッシュ管理]] / [[NoPE]] / [[Transformer]] - エンティティ: [[DeepSeek-V3]] / [[DeepSeek-AI]] / [[Kimi K2]] / [[Kimi Linear]] / [[GLM-5]] - ソース: [[The Big LLM Architecture Comparison]] / [[@2024__arXiv__DeepSeek-V3 Technical Report]]