3.7 小米算法实习生(大模型)一面(50min)
3.7 小米算法实习生(大模型)一面(50min)
无脸男
自我介绍
项目主要想完成的目标
论文有哪些idea
介绍PPO算法
为什么PPO算法要用优势函数来评估,为什么不能直接用reward反馈(拷打到死)
GRPO算法
优势函数是什么的优势
GAE广义优势的缺点
介绍Qlora,对什么进行4bit量化,lora初始矩阵是什么,lora矩阵的量化
撕题:数组中找出第k大的数
无反问
无脸男
自我介绍
项目主要想完成的目标
论文有哪些idea
介绍PPO算法
为什么PPO算法要用优势函数来评估,为什么不能直接用reward反馈(拷打到死)
GRPO算法
优势函数是什么的优势
GAE广义优势的缺点
介绍Qlora,对什么进行4bit量化,lora初始矩阵是什么,lora矩阵的量化
撕题:数组中找出第k大的数
无反问
全部评论
佬是项目里就有rl吗
相关推荐
码农索隆:以下是我以我微薄的认知提供的建议:
1.考个教师资格证,去当体育考试。
2.去健身房当健身教练(因为在我印象里面体育生身材都不错 点赞 评论 收藏
分享
01-21 04:38
中国矿业大学 大数据开发工程师 点赞 评论 收藏
分享
