鹅厂大模型搜索算法实习三面 技术面
发一下问题给大家参考,攒攒人品!
1.了解deepseek-R1吗,介绍一下
2.大模型灾难性遗忘是什么?怎么解决的?
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.什么是旋转位置编码,解决了什么问题,为什么
7.训练一个7b模型要占用多少显存,不同zero阶段能节省多少显存
8.讲lora微调,如果是全量参数sft需要多长时间?
9.讲DPO、PPO、RLHF
1.了解deepseek-R1吗,介绍一下
2.大模型灾难性遗忘是什么?怎么解决的?
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.什么是旋转位置编码,解决了什么问题,为什么
7.训练一个7b模型要占用多少显存,不同zero阶段能节省多少显存
8.讲lora微调,如果是全量参数sft需要多长时间?
9.讲DPO、PPO、RLHF
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看10道真题和解析