高德机器学习算法二面-日常实习

1.项目的拷打与反问,比一面要刁钻一些
2.问了GRPO和DPO的公式,后者没答出来
3.问了DRPO,为什么可以把散度去掉,没答上来
4.为什么要重要性采样
5.讲一下注意力机制,交叉注意力,为什么除以根号d
6.介绍一下什么情况下会出现梯度爆炸和梯度消失,为什么,出现了这种情况模型会怎么样
7.反问
全部评论
感觉问的不多啊
点赞 回复 分享
发布于 01-09 21:28 陕西
一共就二面技术吧
点赞 回复 分享
发布于 01-07 23:49 北京
感觉还顺利吗?
点赞 回复 分享
发布于 01-07 15:53 广东

相关推荐

点赞 评论 收藏
分享
评论
2
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务