Transformer 的突破性表现关键在于其对注意力的使用
在处理一个单词时,注意力使模型能够关注输入中与该单词密切相关的其他单词。

Transformer 的输入需要关注每个词的两个信息:该词的含义和它在序列中的位置

  • 第一个信息,可通过嵌入层对词的含义进行编码。
  • 第二个信息,可通过位置编码层表示该词的位置。

Transformer 将每个注意力计算单元称为注意力头(Attention Head )。多个注意力头并行运算,即所谓的多头注意力(Multi-head Attention)。它通过融合几个相同的注意力计算,使注意力计算具有更强大的分辨能力。

  • Transformer动态流程图1(来源):
    Transformer动态流程图1
  • Transformer动态流程图2(来源):
    Transformer动态流程图2

可阅读资料: