美团大模型算法二面-秋招面经

1. Qwen 与传统的Transformer模型相比,有什么结构上的改进?
2. RMSNorm相较于LayerNorm有什么优势?公式是什么?
3. SwiGLU的公式是什么?
4. GRPO的公式是什么,这样做为什么更好?
5. KL散度的公式是什么,为什么要用KL散度?
6. LLM的损失函数是什么?给你一个10w的词表,计算出事的损失值
7. GRPO为什么要做clip,直接用SFT后的模型还会不稳定吗?优势度可以怎样改进?
8. 为什么你要用GRPO?GPRO结果比之前好多少?显存开销多大?训练一个Step需要多久?奖励函数如何设置的,为什么?有没有想过为什么一开始Reward出现大幅度震荡?GRPO是否一定有效,还有什么解决方法?
9. Post-Training 的工作机制,为什么要做三阶段训练?什么情况下应该用GRPO?为什么DeepSeek用了GRPO?如何从V3到R1?
10. 微调是如何进行微调的?为什么LoRA能够work?除了LoRA外,还了解哪些微调方法?
11. 后训练用的哪个框架?你用过什么框架?如何使用deepspeed进行分布式训练?脚本是你自己写的吗?
12. 知道什么Linux命令?
13. 用过C++,Java吗?平时用什么多?
14. 如何去评价你工作的产出和质量
15. FLUX的工作原理,LoRA在这个地方起到了什么作用?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务