首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
Scaled Dot-Product Attention 中
[单选题]
Scaled Dot-Product Attention 中对 QK^T 的结果除以 sqrt(d_k) 的主要目的是
引入归一化的位置信息
缩小 softmax 输入方差,避免梯度饱和
提高模型容量
减少计算量
查看答案及解析
添加笔记
求解答(0)
邀请回答
收藏(0)
分享
纠错
0个回答
添加回答
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
2025年秋招-华为-...
难度:
0条回答
0收藏
4浏览
热门推荐
相关试题
下列哪一项不是泊松过程的特征
评论
(0)
来自
2025年秋招-华为-1...
使用岭回归拟合样本数据,调节正则化...
评论
(0)
来自
2025年秋招-华为-1...
深入剖析自注意力机制及其变体,以下...
评论
(0)
来自
2025年秋招-华为-1...
单位矩阵 I_n 的性质,哪些一定...
评论
(0)
来自
2025年秋招-华为-1...
在最大似然估计中,为什么通常对似然...
评论
(0)
来自
2025年秋招-华为-1...
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题