美团北斗大模型校招算法一面

1.八股:LoRA 微调原理?训练时调过哪些超参数?有什么经验?
2.八股:SFT 的 loss 如何只计算回答部分?(如何 ignore padding token?)
3.八股:Attention 计算中有哪些显存优化策略?(如 KV Cache 复用、batch 拼接)
4.八股:分布式训练中 Zero-2 和 Zero-3 的核心区别是什么?
5.八股:Transformer 为什么用 LayerNorm 而不是 BatchNorm?
6.项目:项目中的数据规模多大?SFT 数据是如何清洗和构建的?
7.项目:为什么在项目中选择 GRPO 而不是 PPO 或 DPO?它解决了什么问题?
8.项目:奖励函数是如何设计的?是否考虑了事实正确性、安全性等维度?
9.项目:为什么引入 RAG?在什么场景下 RAG 比纯 SFT 更有效?
10.项目:用 LangGraph 实现多轮对话 Agent,相比手写 prompt 流程有哪些工程和效果优势?
11.代码题:lc102 二叉树的层序遍历
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务