Transformer快速入门

Transformer 的突破性表现关键在于其对注意力的使用。
在处理一个单词时，注意力使模型能够关注输入中与该单词密切相关的其他单词。

Transformer 的输入需要关注每个词的两个信息：该词的含义和它在序列中的位置。

Transformer 将每个注意力计算单元称为注意力头（Attention Head ）。多个注意力头并行运算，即所谓的多头注意力（Multi-head Attention）。它通过融合几个相同的注意力计算，使注意力计算具有更强大的分辨能力。

可阅读资料：

如果觉得文章对你有用，请随意赞赏

机器学习

Transformer快速入门

CHENCONGCONG

2024-07-18

2024-07-18

CC BY 4.0

访问CHENCONGCONG