首页 > 试题广场 >

Scaled Dot-Product Attention 中

[单选题]
Scaled Dot-Product Attention 中对 QK^T 的结果除以 sqrt(d_k) 的主要目的是
  • 引入归一化的位置信息
  • 缩小 softmax 输入方差,避免梯度饱和
  • 提高模型容量
  • 减少计算量

这道题你会答吗?花几分钟告诉大家答案吧!