3.7 小米算法实习生(大模型)一面(50min)

3.7 小米算法实习生(大模型)一面(50min)
无脸男
自我介绍
项目主要想完成的目标
论文有哪些idea
介绍PPO算法
为什么PPO算法要用优势函数来评估,为什么不能直接用reward反馈(拷打到死)
GRPO算法
优势函数是什么的优势
GAE广义优势的缺点
介绍Qlora,对什么进行4bit量化,lora初始矩阵是什么,lora矩阵的量化
撕题:数组中找出第k大的数

无反问
全部评论
佬是项目里就有rl吗
点赞 回复 分享
发布于 2025-03-13 13:52 天津

相关推荐

码农索隆:以下是我以我微薄的认知提供的建议: 1.考个教师资格证,去当体育考试。 2.去健身房当健身教练(因为在我印象里面体育生身材都不错)。
点赞 评论 收藏
分享
喵_coding:年底缺人是短视频营造出来的 而且一般说的也很宽泛 不是特指后端
点赞 评论 收藏
分享
评论
1
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务