# Arcee AI Trinity Large
Arcee AI が 2026 年 1 月 27 日から順次公開した 400B MoE オープンウェイト LLM(13B 活性化)。Trinity Mini(26B-A3B)・Trinity Nano(6B-A1B)の小型バリアントも提供。
## アーキテクチャの特徴
複数のアーキテクチャ革新を組み合わせた設計:
- **SWA 3:1 比率、ウィンドウサイズ 4096**: スライディングウィンドウアテンションを 3:1 比(OLMo 3 と同じ)で適用。
- **NoPE(グローバルアテンション層)**: グローバルアテンション層に NoPE を採用。
- **QK-Norm**: アテンション内 Q/K に RMSNorm。
- **ゲーテッドアテンション**: スケール付きドット積にエレメントワイズゲーティングを追加(アテンションシンク軽減・長シーケンス汎化改善・訓練安定化)。Qwen3-Next の Gated Attention と類似するが Full GatedDeltaNet ではない。
- **深さスケール付きサンドイッチノーム**: 4 つの RMSNorm をブロックに配置。第 2 ノームのゲインを `1/√L` で初期化(L=総層数)。初期訓練では残差更新を小さく保ち、学習が進むにつれてスケールが増大する設計。
- **MoE**: DeepSeek スタイルの多数小型エキスパートを採用しつつ Mistral 3 同様に粗粒化(推論スループット向上のため)。
- **訓練**: MuOpt オプティマイザを採用。
## 技術報告書
Arcee AI は詳細な技術報告書(GitHub)を公開。ベースモデルの性能は GLM-4.5 と同等レベルと報告。
## 関連
- 概念: [[Mixture-of-Experts]] / [[スライディングウィンドウアテンション]] / [[NoPE]] / [[QK-Norm]] / [[Gated DeltaNet]]
- ソース: [[The Big LLM Architecture Comparison]]