荣耀大模型算法工程师一面

#荣耀校招# 📍面试公司:荣耀
🕐面试时间:25.11.11
💻面试岗位:大模型算法工程师
❓面试问题:
1. 自我介绍
2. 问有没有大模型相关项目,针对这个项目问了很久
3. 感兴趣强化学习,问一个最新论文如何使用强化学习的。我用到了SAC,接着问大模型推理的top k策略选择答案和SAC选择动作的策略的区别(这脑回路)
4. DQN怎么能应用于大模型工具选择
5. 强化学习输出全0和全1怎么解决,训练上的改善方法
6. 大模型微调,lora有什么缺点
7. PPO有什么缺点
8. 反问:大模型平台部,主要搞agent,周末不太加班。

🙌面试感想:两个面试官,都不开摄像头。本来想说的,后来忍住了,下次绝对不忍!都是岗位一线的,提的问题都非常需要创新和批判性思维,其实从这一点上看荣耀氛围还不错。但是有时候不讲现有方法直接问怎么改进,而且有些使用模糊的词汇(比如他说Q-learning,我以为他说的是算法,但其实他想说的是value network)造成很多误解。整体而言强度很大,感觉面试还挺有收获的。
#发面经攒人品#
全部评论
oc了吗老师
点赞 回复 分享
发布于 12-08 14:57 湖北
一面大概多久二面?
点赞 回复 分享
发布于 12-04 12:53 广东
你这个base哪里的
点赞 回复 分享
发布于 11-14 11:48 陕西
大佬厉害了
点赞 回复 分享
发布于 11-12 17:22 北京
确实荣耀氛围听起来不错啊
点赞 回复 分享
发布于 11-12 17:21 北京

相关推荐

1.  注意力机制:请简述 MHA、MQA 和 GQA 三种注意力机制的核心区别。2.  模型架构:Dense 模型与 MoE 模型有何本质区别?3.  路由机制:MoE 模型中,路由(Routing)机制具体是如何工作的?4.  LoRA 微调:请阐述 LoRA 的原理,以及其中 A、B 矩阵的初始化方式和秩(Rank)的设置考量。5.  强化学习:请对比 DPO、PPO 和 GRPO 的原理与区别,并写出 DPO 的 Loss 函数公式。6.  推理加速:vLLM 中使用了哪些关键技术(如 PagedAttention、KV Cache)来优化推理?7.  并行框架:你对 DeepSpeed 这一加速推理与训练框架有多少了解?8.  BM25 算法:请讲解 BM25 算法的计算原理。9.  负载均衡:MoE 模型中专家(Expert)的负载不均衡问题该如何解决?10.  损失函数:能否通过修改损失函数的方式来缓解 MoE 的负载均衡问题?11.  数据分布:SFT 微调数据与预训练数据分布差异较大时,该如何处理?12. Scaling Law:SFT 微调的数据集是越大越好吗?是否存在 Scaling Law 现象?13. 训练稳定性:强化学习(RL)为何存在训练不稳定的问题?既然不稳定为何业界仍广泛使用?14. 三数之和:LeetCode 15. 三数之和。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看14道真题和解析
点赞 评论 收藏
分享
评论
1
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务