蚂蚁大模型算法二面-26校招
1.八股:vLLM中使用的技术是否熟悉(如Paged Attention、KV Cache)?
2.八股:了解加速推理框架DeepSpeed吗?
3.八股:MoE模型专家的负载不均衡问题如何解决?
4.八股:如何通过修改损失函数来解决负载均衡问题?
5.项目:SFT使用的数据集,使用了多少张卡?SFT训练多久?
6.项目:SFT 的数据集是越大越好吗?会存在scaling law 吗?
7.项目:SFT使用的数据可能和原始模型预训练时的数据分布有较大区别,怎么解决?
8.项目:讲一下LoRA微调的原理,A、B矩阵怎么初始化的,LoRA微调秩设置的是多少
9.项目:讲一下什么场景下用SFT,什么场景下用RL
10.项目:为什么使用强化学习会存在训练不稳定问题?为什么业界还在用?
11.代码题:lc129 求根节点到叶节点数字之和
2.八股:了解加速推理框架DeepSpeed吗?
3.八股:MoE模型专家的负载不均衡问题如何解决?
4.八股:如何通过修改损失函数来解决负载均衡问题?
5.项目:SFT使用的数据集,使用了多少张卡?SFT训练多久?
6.项目:SFT 的数据集是越大越好吗?会存在scaling law 吗?
7.项目:SFT使用的数据可能和原始模型预训练时的数据分布有较大区别,怎么解决?
8.项目:讲一下LoRA微调的原理,A、B矩阵怎么初始化的,LoRA微调秩设置的是多少
9.项目:讲一下什么场景下用SFT,什么场景下用RL
10.项目:为什么使用强化学习会存在训练不稳定问题?为什么业界还在用?
11.代码题:lc129 求根节点到叶节点数字之和
全部评论
相关推荐
12-26 23:58
奶龙大学 算法工程师 点赞 评论 收藏
分享
查看11道真题和解析