26校招-美团大模型应用算法一面

1.八股:NLP和LLM最大的区别是什么?两者有何共同和不同之处?
2.八股:激活函数有了解吗,你知道哪些LLM常用的激活函数?为什么选用它?
3.八股:开源框架了解过哪些?Qwen,Deepseek的论文是否有研读过,说一下其中的创新点主要体现在哪?
4.项目:介绍微调负责的工作,大模型微调最重要的是什么?
5.项目:SFT+DPO训练怎么组织这部分数据的?是自己构造还是用公开数据?
6.项目:看你做过LoRA微调,那你是怎么选rank值?合并adapter权重的时候有没有遇到梯度爆炸?
7.项目:说下LoRA的原理,LoRA是不是只能在Linear层插?为什么不能插在LayerNorm之后?这会对训练稳定性造成什么影响
8.项目:刚才提到用过QLoRA,能具体说说QLoRA是怎么降低资源成本吗?
9.项目:llm推理效率,如果真的部署到在线系统里,这个效率的问题怎么解决呢
10.项目:有没有尝试过模型裁剪?比如 low-rank adaptor、LoRA 融合,或者用Mamba替换部分token path?
11.代码题:实现Casual mask的MHA,说下计算复杂度
全部评论
忍耐王
点赞 回复 分享
发布于 12-23 20:11 广东

相关推荐

12-13 12:11
复旦大学 Java
点赞 评论 收藏
分享
12-26 09:19
门头沟学院 Java
工作中听到最受打击的一句...
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务