10.5. 多头注意力 — 动手学深度学习 2.0.0 documentation (d2l.ai)
Multi-Head Attention | 算法 + 代码_哔哩哔哩_bilibili
代码实现
x[1,4,2] 1几个样本(句子) 4 预测步长(4个单词) 2每个单词的编码后特征长度
10.5. 多头注意力 — 动手学深度学习 2.0.0 documentation (d2l.ai)
Multi-Head Attention | 算法 + 代码_哔哩哔哩_bilibili
代码实现
x[1,4,2] 1几个样本(句子) 4 预测步长(4个单词) 2每个单词的编码后特征长度