反復ヘッド - yuuk1's Digital Garden

## 定義反復的な計算において「現在処理中の入力位置」に注意を向ける[[アテンションヘッド]]（Cabannes+ NeurIPS 2024）。思考の連鎖（Chain of Thought, CoT）の実現に重要な役割を担う。 ## チューリングテープとの類比 CoT を出力するとき、LLM は過去の出力トークン（「テープ」）を逐次参照しながら次のトークンを生成する。反復ヘッドは、このテープ上で「自分が今どこを処理しているか」を追跡する機構として機能する。 **実例（01文字列の偶奇判定）:** - 入力: `0010101001:` - CoT: `0011001110`（各位置の1の個数の偶奇を逐次計算） - 最終文字が答え - 漸化式: `s_i = s_{i-1} + x_i (mod 2)` ## 二層構造（Cabannes+ NeurIPS 2024） 1. **第一層**: コロン（入力とテープの境界）の位置埋め込みを取得。 2. **MLP**: 自身の位置埋め込みとコロン位置の差 +1 を計算し、「現在処理すべき入力トークン位置」に対応する埋め込みを算出。 3. **第二層（反復ヘッド）**: 計算した位置埋め込みを用いて、その位置のトークンに注意を向ける。なぜ 2 層が必要か: 1 層だけでは「現在が何トークン目」しかわからず、「入力 N トークン＋テープ M トークン処理済」か「入力 N-1 トークン＋テープ M+1 トークン処理済」かを区別できない。コロンからの距離計算によって処理位置の特定が可能になる。 ## 一般性 - 入力をテープにコピーするタスクや多項式の漸化式計算でも同様の反復ヘッドが生成されることが確認されている。 - 実際の CoT はより複雑（ポインタが前後に動く・テープ消費等）だが、本質的にはこの反復ヘッドとテープの仕組みが基盤にあると考えられる。 ## 外挿可能性との関係反復ヘッドは「訓練で見ていない長さの漸化式」に対しても機能する可能性があり、論理推論タスクの外挿能力の一因となる。ただし知識依存の CoT は MLP データベースに依存するため外挿が困難になる。 ## 横断的知見 ## 未解決の問い - 反復ヘッドはより複雑な CoT（前後にポインタが動く探索・バックトラック等）をどこまで実現できるか？ - 反復ヘッドの機能は複数の注意ヘッドに分散しているか、単一ヘッドに集中しているか？ ## 関連ページ - [[アテンションヘッド]] — 反復ヘッドが属する分類 - [[機構的解釈性]] — 発見した方法論 - [[関数ベクトル]] — 別のプログラム実行機構