Transformerのエンコーダ・デコーダのフレームワーク

[[Transformer]]のエンコーダ・デコーダ - 以前：[[LSTM]] のようなリカレントアーキテクチャ - ネットワーク接続にフィードバックループを持ち、ある時刻から別の時刻へ情報を伝播させるので、テキストのような連続したデータのモデル化に理想的 - [[RNN]]はある入力(単語や文字)を受け取り、それをネットワークに通して、隠れ状態と呼ばれるベクトルを出力する - フィードバックループを通して自分自身に情報をフィードバックし、次の時刻でその情報を利用できる - 言語翻訳 - エンコーダ・デコーダ (encoder-decoder)または Seq2seqアーキテクチャ - エンコーダは、入力系列から与えられる情報を、最後の隠れ状態と呼ばれる数値表現にエンコード -> この状態はデコーダに渡され、デコーダは出力系列を生成。 - ![[Pasted image 20230402140546.png]] - 以後： - デコーダがエンコーダのすべての隠れ状態にアクセスできるようにすることで、このボトルネックを解消 [[機械学習エンジニアのためのTransformers]] 1章より引用・改変