Swift's Blog
HOME
ARCHIVES
CATEGORIES
TAGS
LINKS
ABOUT
HOME
ARCHIVES
CATEGORIES
TAGS
LINKS
ABOUT
Transformer
Swift
2019-07-25 09:04:33
2019-07-25 09:04
NLP
Paper Reading
|
Attention
|
Encoder-Decoder
要点如下:
Notes
Self-Attention
:表示自注意。在机器翻译中,attention分配通常是目标单词对源语句各单词的概率分布。而self-attention表示source —> source的attention分配,这样每个单词便能捕获与其他所有单词的关系特征,解决了RNN无法学习长程特征的问题。
Multi-Head
:表示 $X$ 同时做多次映射得到多个query、key、value。
参考
Attention Is All You Need
The Illustrated Transformer
#Paper Reading
#Attention
#Encoder-Decoder
Dataset
Prev posts
Attention Model
Next posts