网易大模型算法实习一面 50min
1.问项目的数据集构建和细节
2.分类模型微调前如果比较确定,但sft后可能会把概率输出变得不那么确定了,你觉得是什么导致的
3.讲一讲奖励模型的训练,奖励模型的奖励是怎么来的
4.是否了解过强化学习,讲一讲on-policy和off-policy不同和优缺点
5.为什么sft和rl在post-train中可能需要轮着来
最后是代码手撕:
零钱兑换
2.分类模型微调前如果比较确定,但sft后可能会把概率输出变得不那么确定了,你觉得是什么导致的
3.讲一讲奖励模型的训练,奖励模型的奖励是怎么来的
4.是否了解过强化学习,讲一讲on-policy和off-policy不同和优缺点
5.为什么sft和rl在post-train中可能需要轮着来
最后是代码手撕:
零钱兑换
全部评论
网易实习一共几面
相关推荐
02-04 16:13
门头沟学院 算法工程师 字节抖音风控部门大模型算法一面1.自我介绍(论文、实习、项目)2.拷打项目(问的很细,占据主要面试时间)3.实习介绍4.讲讲dpo与kto的区别5.grpo的非规则奖励如何设计6.两道medium力扣
查看6道真题和解析 点赞 评论 收藏
分享