DSA - yuuk1's Digital Garden

# DSA ## 定義 DSA(DeepSeek Sparse Attention)は、[[DeepSeek-AI|DeepSeek]] 系統で提案され、[[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering|GLM-5]] が 744B/40B MoE アーキテクチャで大規模採用したスパースアテンション手法である。フルアテンションの $O(n^2)$ 計算コストを削減しつつ、エキスパートスパーシティ(MoE)とは独立した第三のスパーシティ軸を提供する。 (Source: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] §architecture) GLM-5 ではこれを 28.5 兆トークンの事前学習と長コンテキスト推論で実装し、Artificial Analysis Intelligence Index v4.0 でオープンウェイト初の 50 を達成した。 (本ページは GLM-5 が wiki の DSA 直接参照ソースであり、起点となる DeepSeek 系統の原論文が wiki に未取り込みのため、定義の根拠は GLM-5 の記述に限定される。DeepSeek の DSA 原典が ingest された段階で本ページを拡張する。) ## 横断的知見 - **スパーシティの三系統が並立**: [[Lightning Attention]] (MiniMax-M1、ハイブリッドアテンション 7:1)・エキスパートスパーシティ ([[Kimi K2]]、384 エキスパート + 活性化 8)・DSA (GLM-5、アテンション内スパーシティ) は、それぞれ「アテンション計算量」「MoE エキスパート選択」「トークン × トークン疎結合」と異なる軸でスパース化を実装する独立アプローチ。GLM-5 はこの 3 軸の最後の 1 つを採用し MoE と組み合わせた。(Source: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] / [[@2025__arXiv__MiniMax-M1 - Scaling Test-Time Compute Efficiently with Lightning Attention]] / [[@2025__arXiv__Kimi K2 - Open Agentic Intelligence]]) ## 未解決の問い - DSA の具体的なスパースパターン(どのトークンペア間で計算を省略するか)とゲーティング機構は GLM-5 では概要のみ。DeepSeek 系統の原論文の取り込みで詳細が明らかになる - DSA と Lightning Attention・エキスパートスパーシティの組み合わせ可能性(例: DSA + MoE + Lightning Attention の三段スパーシティ)は未検証 - 長コンテキスト(>128K)での DSA の精度劣化と計算コストのパレートフロンティアは独立評価がない ## 関連 - ソース: [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]] - 概念: [[Mixture-of-Experts]] / [[Lightning Attention]] / [[LLM分散学習]] / [[LLMスケーリング則]] - エンティティ: [[DeepSeek-AI|DeepSeek]] / [[Zhipu AI]] / [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering|GLM-5]] ## 出典 - [[@2026__arXiv__GLM-5 - From Vibe Coding to Agentic Engineering]](§architecture)