首页 > 试题广场 >

在Transformer的自注意力(Self-Attenti

[单选题]
在Transformer的自注意力(Self-Attention)机制中,关于Q、K、V矩阵的作用及计算,以下描述正确的是?
  • 注意力分数是查询向量Q与键向量K的点积除以√d_k(d_k为键向量维度),目的是避免内积过大导致Softmax梯度消失
  • 每个头的Q、K、V矩阵是共享的,以减少模型的参数数量
  • 键向量K的维度必须与值向量V的维度相同,否则无法计算注意力输出
  • 注意力输出是值向量V的加权和,权重由Q与V的相似度决定

这道题你会答吗?花几分钟告诉大家答案吧!