26校招拼多多LLM算法二面 被横向挂
总体感觉不错,估计是太卷了。。。
1. 手撕:给定 rand(7)(随机选取 1-7)实现 rand(10)
2. 平均调用 rand(7) 次数是多少?
3. grpo是什么?最耗费时间是哪一步?
4. grpo 长度衰减怎么做的?公式输入给我
5. grpo 计算 loss 时候如何做重要性采样?有什么改进点?
6. 你grpo 用了几张卡,大概多少 h,数据用了多少?
1. 手撕:给定 rand(7)(随机选取 1-7)实现 rand(10)
2. 平均调用 rand(7) 次数是多少?
3. grpo是什么?最耗费时间是哪一步?
4. grpo 长度衰减怎么做的?公式输入给我
5. grpo 计算 loss 时候如何做重要性采样?有什么改进点?
6. 你grpo 用了几张卡,大概多少 h,数据用了多少?
全部评论
相关推荐
查看7道真题和解析 点赞 评论 收藏
分享
凡岛公司福利 757人发布