Arcee AI Trinity Large - yuuk1's Digital Garden

# Arcee AI Trinity Large Arcee AI が 2026 年 1 月 27 日から順次公開した 400B MoE オープンウェイト LLM(13B 活性化)。Trinity Mini(26B-A3B)・Trinity Nano(6B-A1B)の小型バリアントも提供。 ## アーキテクチャの特徴複数のアーキテクチャ革新を組み合わせた設計: - **SWA 3:1 比率、ウィンドウサイズ 4096**: スライディングウィンドウアテンションを 3:1 比(OLMo 3 と同じ)で適用。 - **NoPE(グローバルアテンション層)**: グローバルアテンション層に NoPE を採用。 - **QK-Norm**: アテンション内 Q/K に RMSNorm。 - **ゲーテッドアテンション**: スケール付きドット積にエレメントワイズゲーティングを追加(アテンションシンク軽減・長シーケンス汎化改善・訓練安定化)。Qwen3-Next の Gated Attention と類似するが Full GatedDeltaNet ではない。 - **深さスケール付きサンドイッチノーム**: 4 つの RMSNorm をブロックに配置。第 2 ノームのゲインを `1/√L` で初期化(L=総層数)。初期訓練では残差更新を小さく保ち、学習が進むにつれてスケールが増大する設計。 - **MoE**: DeepSeek スタイルの多数小型エキスパートを採用しつつ Mistral 3 同様に粗粒化(推論スループット向上のため)。 - **訓練**: MuOpt オプティマイザを採用。 ## 技術報告書 Arcee AI は詳細な技術報告書(GitHub)を公開。ベースモデルの性能は GLM-4.5 と同等レベルと報告。 ## 関連 - 概念: [[Mixture-of-Experts]] / [[スライディングウィンドウアテンション]] / [[NoPE]] / [[QK-Norm]] / [[Gated DeltaNet]] - ソース: [[The Big LLM Architecture Comparison]]