Transformer | Swift's Blog

Transformer

Swift Lv6

2019-07-25 09:04:33 2019-07-25 09:04:33

NLP

要点如下：

Notes

Self-Attention：表示自注意。在机器翻译中，attention分配通常是目标单词对源语句各单词的概率分布。而self-attention表示source —> source的attention分配，这样每个单词便能捕获与其他所有单词的关系特征，解决了RNN无法学习长程特征的问题。
Multi-Head：表示 $X$ 同时做多次映射得到多个query、key、value。

参考

1. Notes
2. 参考

1. Notes
2. 参考