[[Transformer]]のエンコーダ・デコーダ
- 以前:[[LSTM]] のようなリカレントアーキテクチャ
- ネットワーク接続にフィードバックループを持ち、ある時刻から別の時刻へ情報を伝播させるので、テキストのような連続したデータのモデル化に理想的
- [[RNN]]はある入力(単語や文字)を受け取り、それをネットワークに通して、隠れ状態と呼ばれるベクトルを出力する
- フィードバックループを通して自分自身に情報をフィードバックし、次の時刻でその情報を利用できる
- 言語翻訳
- エンコーダ・デコーダ (encoder-decoder)または Seq2seqアーキテクチャ
- エンコーダは、入力系列から与えられる情報を、最後の隠れ状態と呼ばれる数値表現にエンコード -> この状態はデコーダに渡され、デコーダは出力系列を生成。
- ![[Pasted image 20230402140546.png]]
- 以後:
- デコーダがエンコーダのすべての隠れ状態にアクセスできるようにすることで、このボトルネックを解消
[[機械学習エンジニアのためのTransformers]] 1章より引用・改変