Transformer 的突破性表现关键在于其对注意力的使用。
在处理一个单词时,注意力使模型能够关注输入中与该单词密切相关的其他单词。
Transformer 的输入需要关注每个词的两个信息:该词的含义和它在序列中的位置。
- 第一个信息,可通过嵌入层对词的含义进行编码。
- 第二个信息,可通过位置编码层表示该词的位置。
Transformer 将每个注意力计算单元称为注意力头(Attention Head )。多个注意力头并行运算,即所谓的多头注意力(Multi-head Attention)。它通过融合几个相同的注意力计算,使注意力计算具有更强大的分辨能力。
可阅读资料:
- 第一篇:Transformer 之功能概览
- 第二篇:Transformer 之逐层介绍
- 第三篇:Transformer 之多头注意力
- 第四篇:Transformer 之注意力计算原理
- 层层剥开 Transformer:层层剥开 Transformer
- Transformer各层网络结构详解!面试必备!(附代码实现)
- 大语言模型核心技术-Transformer 详解