【一面】 1.介绍种 Attention ( MHA , MQA , GQA )的区别2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别3.讲一下 MoE 的路由机制是如何做的?4.介绍 RAG 项目,讲一下 RAG 项目的亮点5.是否做过意图识别?如果要做意图识别,可以怎么实现?6.讲一下BM25算法原理7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数8.代码:lc15三数之和【二面】1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?2.了解加速推理框架 DeepSpeed 吗?3.MoE 模型专家的负载不均衡问题如何解决?4.如何通过修改损失函数来解决负载均衡问题?5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?6.微调项目是如何模型选型7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。