[【深層学習】図で理解するAttention機構 - Qiita](https://qiita.com/ps010/items/0bb2931b666fa602d0fc) 入力されたデータのどこに注目すべきか、動的に特定する仕組み。 [[Transformer]]などに用いられている。 --- [【論文】"Attention is all you need"の解説](https://www.acceluniverse.com/blog/developers/2019/08/attention.html) > Attentionとは、「注意」とあるように、画像や文章の特定の部分に注意を向けるよう、学習させていく方法 > この論文の革新的なところは、余分な部分を取り除き、attentionのみで学習しても、高い精度がでる --- ## 動機 > ディープラーニングでは、人間がデータや問題の表現方法(特徴設計)を決めるのではなく、 ニューラルネットワークが決めるようになったものの、ネットワークの設計図、つまり、どのニューロン間をシナプスでつなげるか、情報はどう流れるかは、人が設計していた。しかし、データの流れ方もデータ自体から学習によって決定できないか、さらには入力や問題に合わせてそのデータの流れ方も動的に変わることはできないか、ということが考えられた。 > このデータの流れ方の動的な制御を実現する仕組みのつが注意機構(Attention)である。 人が大量のデータを全身の様々な器官から受けとる中で、ほんの一部の情報のみに注目し、 集中して処理するのと同様に、注意機構も入力データに応じて、どの情報を残すか捨てるかを制御する。例えば、「足元に注意」の看板を目にすれば、普段は気にならない足元からの接触感覚などに注目し、意識を向ける。これと同様に、注意機構は特定の情報に集中する仕組みを実現する。 > 注意機構は集合を注意対象とし、それらから情報を集め次の要素の値を決定する。 例えば [[言語モデル]]であれば、注意対象の、集合の各要素は各単語(実装ではトークン)に対応するニューロンの集合に相当する(図1)。そして、注意機構はどの要素を集めてくるかという注意の強さを決定する方法を学習によって獲得する。ここでの注意の強さとは、シナプスの重みと同じだと思ってもらってよい。注意が強ければその要素から情報を多く読みとり、弱ければ情報を読みとらない、つまり、その情報を無視する。 --- ## Papers - [[2017__NeurIPS__Attention Is All You Need]]