快手26校招大模型算法一面

1.八股:请分别说说你对 DeepSeek-V3 和 DeepSeek-R1 的理解,它们在架构或训练策略上有何关键差异?
2.八股:Qwen系列基座模型的结构是怎样的?它的 Attention 和 FFN 层是如何设计的?
3.八股:训练一个 8B 参数的大模型,大概需要多少显存?如果显存不够,你会用哪些技术缓解?
4.项目:你们在 RAG 应用中是如何做效果评估的?具体用了哪些指标?
5.项目:如果 RAG 系统输出错误答案,你怎么判断是检索模块的问题,还是生成模块的问题?有没有设计过归因实验?
6.项目:你们是否专门训练了用于 RAG 场景的生成模型?它和通用基座模型在评估维度上有什么不同?
7.项目:在 SFT 阶段,你们如何设计不同来源数据(如通用指令、垂域问答、CoT 数据)的配比?依据是什么?
8.项目:针对垂域场景,模型效果如何评估?除了人工评测,有没有尝试自动化或半自动的评估方案?
9.代码题:LeetCode 72 编辑距离
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务