カーネル法 - yuuk1's Digital Garden

# カーネル法 ## 定義カーネル法（kernel method）は、カーネル関数 $k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}$（2 つのデータを受け取り実数値類似度を返す関数）に基づいたパターン認識・機械学習手法の総称である。核心定理として、$k$ がカーネル関数であることは、再生核ヒルベルト空間（RKHS）$\mathcal{H}$ と特徴マップ $\phi: \mathcal{X} \to \mathcal{H}$ が存在して $k(x, x') = \langle \phi(x), \phi(x') \rangle_\mathcal{H}$ が成り立つことと同値である。代表例はガウスカーネル $k_G(x, x') = \exp(-\|x - x'\|_2^2 / 2)$。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 横断的知見 - Transformer のアテンション機構は $\exp(\langle c_i, q \rangle)$ というカーネル関数に基づいた重み付き和として統一的に再解釈できる。このカーネルはガウスカーネルの特徴マップを $\exp(\|x\|_2^2/2)$ でスケーリングした $\phi_A$ による内積として書ける。内積の線形性を使うと KV キャッシュの総和が固定次元状態ベクトルとなり、[[Transformer]] が[[RNN]]に等価変換される。(Source: [[joisino-トランスフォーマーはRNN-2024]]) - 同様の再定式化は通常の勾配降下による重み内学習にも適用できる。ニューラルタンジェントカーネル（NTK）は初期パラメータにおける勾配を特徴マップとするカーネルであり、線形近似のもとで訓練後の重みも過去データとの NTK 類似度の重み付き和で書ける。文脈内学習と重み内学習は同質の手続きである。(Source: [[joisino-トランスフォーマーはRNN-2024]]) ## 未解決の問い - RKHS の特徴マップは一般に無限次元であり直接計算できない。ランダム特徴量やナイストローム近似で近似するとき、どの程度の次元数で実用精度に達するか。データの本質的な低次元性はどのように事前に見積もれるか。 - ニューラルタンジェントカーネル（NTK）近似はパラメータがほとんど動かないという仮定（無限幅ネットワークの極限）に依拠している。実際の有限幅 LLM でこの近似は有効か。 ## 関連 - [[Transformer]] — アテンション機構をカーネル法として解釈できる - [[線形注意]] — 有限次元カーネルで Transformer を近似するアプローチ - [[RNN]] — カーネル法の再定式化を通じて Transformer と等価変換される先 - [[文脈内学習]] — NTK によるカーネル再定式化が重み内学習と結ぶ概念 ## 出典 - [[joisino-トランスフォーマーはRNN-2024]]（§「カーネル法」〜§「カーネル法と注意機構」〜§「文脈内学習との関係」）