抖音校招大模型算法一面

1.八股:LoRA 和全参数微调的核心区别是什么?在显存和训练效率上各有什么优劣?
2.八股:DPO、PPO、GRPO 三者的优化目标有何不同?为什么 GRPO 的 loss 中要显式加入 KL 散度项?
3.八股:Transformer Encoder 中 FFN 的作用是什么?
4.八股:什么是 DeepSeek 的 MLA?它的优势是什么?
5.项目: 你在实习中用 LoRA 微调了哪个开源大模型?具体 rank、alpha、dropout 是多少?为什么这样设置?
6.项目:SFT和DPO 数据是否有重叠?DPO 的偏好数据是如何构造的?人工标注成本大概多少?
7.项目:你们的 RAG 系统召回阶段用了 BGE-M3 还是 BM25?最终选择依据是什么指标(如 Recall@k)?BGE-M3 输出向量维度是多少?
8.项目:为什么不用纯向量相似度直接生成答案,而要再过一遍大模型?这样做对幻觉和安全性有什么帮助?
9.手撕:接雨水(LeetCode 42)
全部评论
你最近面的,这么完啊
点赞 回复 分享
发布于 12-27 20:52 陕西

相关推荐

评论
2
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务