抖音校招大模型算法一面
1.八股:LoRA 和全参数微调的核心区别是什么?在显存和训练效率上各有什么优劣?
2.八股:DPO、PPO、GRPO 三者的优化目标有何不同?为什么 GRPO 的 loss 中要显式加入 KL 散度项?
3.八股:Transformer Encoder 中 FFN 的作用是什么?
4.八股:什么是 DeepSeek 的 MLA?它的优势是什么?
5.项目: 你在实习中用 LoRA 微调了哪个开源大模型?具体 rank、alpha、dropout 是多少?为什么这样设置?
6.项目:SFT和DPO 数据是否有重叠?DPO 的偏好数据是如何构造的?人工标注成本大概多少?
7.项目:你们的 RAG 系统召回阶段用了 BGE-M3 还是 BM25?最终选择依据是什么指标(如 Recall@k)?BGE-M3 输出向量维度是多少?
8.项目:为什么不用纯向量相似度直接生成答案,而要再过一遍大模型?这样做对幻觉和安全性有什么帮助?
9.手撕:接雨水(LeetCode 42)
2.八股:DPO、PPO、GRPO 三者的优化目标有何不同?为什么 GRPO 的 loss 中要显式加入 KL 散度项?
3.八股:Transformer Encoder 中 FFN 的作用是什么?
4.八股:什么是 DeepSeek 的 MLA?它的优势是什么?
5.项目: 你在实习中用 LoRA 微调了哪个开源大模型?具体 rank、alpha、dropout 是多少?为什么这样设置?
6.项目:SFT和DPO 数据是否有重叠?DPO 的偏好数据是如何构造的?人工标注成本大概多少?
7.项目:你们的 RAG 系统召回阶段用了 BGE-M3 还是 BM25?最终选择依据是什么指标(如 Recall@k)?BGE-M3 输出向量维度是多少?
8.项目:为什么不用纯向量相似度直接生成答案,而要再过一遍大模型?这样做对幻觉和安全性有什么帮助?
9.手撕:接雨水(LeetCode 42)
全部评论
你最近面的,这么完啊
相关推荐
12-28 16:04
浙江大学 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看11道真题和解析