NoPE - yuuk1's Digital Garden

# NoPE(No Positional Embedding) ## 定義 NoPE(No Positional Embedding)は明示的な位置符号化を一切行わないアテンション機構。絶対位置埋め込み・相対位置埋め込み・RoPE などを使用せず、モデルは**因果アテンションマスクに内在する暗黙的な順序情報**のみで位置を認識する。 2023 年の論文「The Impact of Positional Encoding on Length Generalization in Transformers」で提案・検証。 ## 仕組み位置情報がないにもかかわらず順序認識が可能な理由: - 因果アテンションマスクにより位置 t のトークンは位置 ≤ t のトークンにしかアテンションできない。 - これはアテンション計算の「非対称性」として位置の方向情報を構造的に持つ。 - モデルは勾配降下法による訓練でこの暗黙的情報を活用するよう学習できる。 ## RoPE との比較 | 手法 | 位置情報 | 長さ汎化 | 実装コスト | |------|----------|----------|------------| | 絶対位置埋め込み | 追加埋め込み層 | 訓練長以上では劣化 | 低 | | RoPE | Q・K の回転変換 | 標準的 | 中 | | NoPE | なし(マスクのみ) | 優れている | 低(実装はむしろ単純) | NoPE 論文では約 1 億パラメータの GPT スタイルモデルで NoPE が RoPE より優れた長さ汎化を示した。ただし大規模モデルへの一般化は未確認。 ## 採用モデル | モデル | 適用層 | 備考 | |--------|--------|------| | SmolLM3 (3B) | 4 層に 1 層 | RoPE と混在。全層でなく部分採用 | | Kimi Linear | MLA(グローバルアテンション)層 | Kimi Delta Attention ブロックが位置情報を担う設計 | | Arcee AI Trinity Large | グローバルアテンション層 | QK-Norm とも組み合わせ | ## 横断的知見 - **部分採用が主流**: NoPE はすべての層で採用されるのではなく、特定の層(SmolLM3 は 4 層おき、Kimi Linear はグローバルアテンション層)での採用にとどまる。長コンテキストで RoPE が不利になる箇所をピンポイントで NoPE に置き換える設計。(Source: [[The Big LLM Architecture Comparison]]) - **線形アテンションとの親和性**: Kimi Linear は Gated DeltaNet([[Gated DeltaNet]])ブロックが位置バイアスを処理するため、MLA 層(フルアテンション)では RoPE が不要と判断。NoPE + 線形アテンション委任という役割分担が生まれている。(Source: [[The Big LLM Architecture Comparison]]) - **Partial RoPE との関係**: Gemma 4 の p-RoPE(全次元の 25% にのみ RoPE)や MiniMax-M2 の partial RoPE(半分の次元に RoPE)も NoPE と同方向の思想を持つ——RoPE を弱めることで長コンテキストの位置ノイズを減らす。NoPE はその極端な形。(Source: [[The Big LLM Architecture Comparison]]) - **ハイブリッドのフルアテンション層への選択的適用が特に効果的**: SWA + フルアテンションのハイブリッドにおいて、フルアテンション層のみに NoPE を適用すると短コンテキスト性能をほぼ損なわず(ShortAvg +0.82 pt)に長コンテキスト性能が大幅向上する(RULER +6.75 pt、RULER-NIAH +16.40 pt、LongBench +5.88 pt、S5/0.66B/100B 設定)。これは Large-Window Laziness への対処として、フルアテンション層がグローバルな相対距離に注目しやすくなるためと説明される。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) - **SWA との組み合わせでメカニズムが明確化**: NoPE の利点は「長距離位置バイアスを除去してフルアテンション検索ヘッドの形成を促す」点にある。効率的注意が最適化事前として機能するハイブリッドでは、フルアテンション自体の設計が長コンテキスト能力の主要なボトルネックになるため、NoPE の効果が特に大きい。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]]) ## 未解決の問い - NoPE の長さ汎化優位性は 1 億パラメータ規模での観察。10B・100B 規模でも同様の効果があるか。 - SmolLM3 の「4 層に 1 NoPE」の比率はどのような実験に基づくか(論文に詳細なし)。 - SWA-128-NoPE 改善は SWA 以外のハイブリッド(Mamba-2・GDN ベース)でも同様に有効か。(Source: [[@2026__arXiv__Rethinking the Role of Efficient Attention in Hybrid Architectures]] では SWA のみ検証) ## 関連 - 概念: [[Grouped-Query Attention]] / [[Multi-Head Latent Attention]] / [[Gated DeltaNet]] / [[Transformer]] - エンティティ: [[SmolLM3]] / [[Kimi Linear]] / [[Arcee AI Trinity Large]] - ソース: [[The Big LLM Architecture Comparison]]