注意力分数是查询向量Q与键向量K的点积除以√d_k(d_k为键向量维度),目的是避免内积过大导致Softmax梯度消失
每个头的Q、K、V矩阵是共享的,以减少模型的参数数量
键向量K的维度必须与值向量V的维度相同,否则无法计算注意力输出
注意力输出是值向量V的加权和,权重由Q与V的相似度决定
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题