Frozen Pretrained Transformer - yuuk1's Digital Garden

# Frozen Pretrained Transformer ## 定義 Frozen Pretrained Transformer (FPT) は、言語(GPT-2 等)または画像(BEiT 等)で事前学習したトランスフォーマーの **self-attention 層と feedforward 層を凍結したまま**、タスク固有の入力埋め込み・位置埋め込み・レイヤー正規化・出力層だけを学習し直すことで新しいドメイン(時系列)のタスクを解く転移学習パラダイムである。 Zhou et al. (2023)「One Fits All: Power General Time Series Analysis by Pretrained LM」(NeurIPS 2023, arXiv:2302.11939)が提案し、時系列分析の分類・異常検出・補完・短期/長期予測・few-shot/zero-shot 予測の 7 タスクに跨って SOTA または同等の性能を示した。([[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]]) ## 主要コンポーネント - **凍結ブロック(❄)**: GPT-2 の Multi-Head Attention + Feed Forward。事前学習済みの重みはそのまま保持し、勾配を流さない。 - **ファインチューニング対象(🔥)**: 位置埋め込み・レイヤー正規化・入力埋め込み層・出力線形層。学習可能パラメータは総モデルの **4.6〜6.12%** にとどまる。 - **パッチング**: 隣接タイムステップを 1 トークンに集約し、入力長を延ばしながらトークン数を維持する局所意味情報抽出。 - **逆インスタンス正規化(RevIN)**: 入力系列を平均・分散で正規化し出力に戻すシンプルな正規化ブロック。 ## 理論的根拠: self-attention と PCA の等価性 FPT の有効性の理論的根拠として、Zhou et al. は self-attention のヤコビアン勾配ノルム最小化が PCA の主成分分解と等価になることを示す。 **Theorem 1** (論文 §8): 入力 $X \in \mathbb{R}^{N \times D}$ に対し、 $\sum_{i=1}^N |x_i - X^\top X A x_i|^2$ を最小化する最適解 $A^*$ は $X^\top X$ の上位 $m$ 個の固有ベクトルの外積和 $A^* = \sum_{i=1}^m \lambda_i v_i v_i^\top$ で与えられる。これは、事前学習によって self-attention が「入力パターンの固有ベクトル空間への射影」というデータ非依存の汎用操作を学習することを意味し、言語・画像など異なるドメインで学習しても同じ汎用操作が時系列に転移できる根拠となる。 ## 横断的知見 - **「凍結 + 事前学習」の組み合わせが鍵**: アブレーション(表7)では、凍結なし(full fine-tune)・事前学習なし(random init)・層数 0(GPT-2(0))のいずれも性能が大きく低下する。特に事前学習なしのランダム初期化 GPT-2 を凍結すると性能が極端に落ち込み、事前学習済み知識自体が不可欠であることが示される。(Source: [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]]) - **FPT の channel-independence は後続 TSFM への問い**: One Fits All は多変量系列を「各チャネルを独立した単変量として扱う」channel-independence で処理する(§D 実装詳細)。これは [[多変量時系列予測]] が未解決の問いとして指摘する「channel-independent と cross-variate の対比」——[[Falcon-X]] が channel-independence を cross-variate の退化と批判した問題——の前史となる。FPT で channel-independence が採用された理由はメモリ効率と PatchTST の先例にある(§D)。(Source: [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]], [[@2026__arXiv__Falcon-X - A Time Series Foundation Model for Heterogeneous Multivariate Modeling]]) - **「凍結済み言語モデルの時系列転移」論文タイトル(One Fits All)は [[@2005__ICDE__One Size Fits All - An Idea Whose Time Has Come and Gone|2005__ICDE__One Size Fits All - An Idea Whose Time Has Come and Gone]] への意図的な応答**: Stonebraker & Cetintemel (2005) が「ワンサイズフィッツオール」の終焉を宣言したのに対し、Zhou et al. は逆説的に「事前学習済みトランスフォーマーはすべての時系列タスクに適合する」と主張する構図がある。ただし論文本文でこの対応関係が明示されているわけではない。(Source: [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]]) ## 未解決の問い - FPT の理論(self-attention ≈ PCA)は線形近似に依拠する。非線形の attention パターン(softmax の非線形性)が支配する領域ではどこまで成立するか。 - channel-independence がデフォルトとなった FPT を、cross-variate 機構([[Falcon-X]] の prototype routing・[[Chronos-2]] の group attention)と組み合わせることで精度が上がるか。 - GPT-2(3) と GPT-2(6) で最良タスクが異なる(インプテーションは 3 層、分類・異常検知は 6 層)。最適層数のタスク依存性の理論的説明がない。 - 凍結比率(層数)と精度・学習効率のトレードオフを探索した系統的なアブレーションが不十分。parameter-efficient fine-tuning(LoRA 等)との比較も未実施(著者が §9 で今後の方向として言及)。 ## 関連 - 概念: [[LLM時系列アプローチ]](Aligning / LLM バックボーン型の実例) / [[時系列基盤モデル]](FPT が拓いたクロスモダリティ転移路線の後継) / [[多変量時系列予測]] / [[異常検知]] - ソース: [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]] - エンティティ: [[Tian Zhou]] / [[Rong Jin]] / [[Alibaba Group]] - 関連 MOC: [[時系列基盤モデル - MOC]] ## 出典 - [[@2023__NeurIPS__One Fits All - Power General Time Series Analysis by Pretrained LM]](NeurIPS 2023、arXiv:2302.11939、Tian Zhou・Peisong Niu・Xue Wang・Liang Sun・Rong Jin、Alibaba Group DAMO Academy)