京东技术一面大模型
一面 HR,这是二面,技术一面。
面试官人很好,聊了很久,总结一下问题吧。
1.自我介绍
2.项目介绍
3.你这个 prompt 是怎么调整的?
4.你如何评估你们这个效果呢?(我从数据评估和模型评估两方面讲)
5.你们的训练数据怎么构造的?用的什么格式?
6.全参微调训练一次多久?
7.主要是 SFT 吗?没考虑强化学习?
8.你觉得为什么现在大模型都是 only decoder?有什么好处?
9.lora 做过吗?讲一下原理
10.lora 你对哪些层次加 adapter?怎么定的?print model 看吗?(面试官后面说对不同层加 lora 效果影响还蛮大的,不仅仅是参数大小)
11. 对训练精度了解吗?(fp16 bf16 我讲的不太对,这部分不是很记得了,要复习一下)
12.attention 里面的注意力分数是什么?为什么要 Q 乘以 Kt?什么含义?
13. 位置编码了解吗?讲一下
代码题:类似于 topk 但是不要求复杂度,更像是数据处理场景题。
反问:聊了很多,面试官人确实很好,泪目。只能说面试确实看缘分。
面试官人很好,聊了很久,总结一下问题吧。
1.自我介绍
2.项目介绍
3.你这个 prompt 是怎么调整的?
4.你如何评估你们这个效果呢?(我从数据评估和模型评估两方面讲)
5.你们的训练数据怎么构造的?用的什么格式?
6.全参微调训练一次多久?
7.主要是 SFT 吗?没考虑强化学习?
8.你觉得为什么现在大模型都是 only decoder?有什么好处?
9.lora 做过吗?讲一下原理
10.lora 你对哪些层次加 adapter?怎么定的?print model 看吗?(面试官后面说对不同层加 lora 效果影响还蛮大的,不仅仅是参数大小)
11. 对训练精度了解吗?(fp16 bf16 我讲的不太对,这部分不是很记得了,要复习一下)
12.attention 里面的注意力分数是什么?为什么要 Q 乘以 Kt?什么含义?
13. 位置编码了解吗?讲一下
代码题:类似于 topk 但是不要求复杂度,更像是数据处理场景题。
反问:聊了很多,面试官人确实很好,泪目。只能说面试确实看缘分。
全部评论
我勒个豆,咱俩好像一样,我二面也是这个岗
东子一面是HR面么,为什么邮件通知一面都安排到了10号了
请问一面结果大概多久出的呀
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
11-07 10:05
石家庄市第一职业中专学校 后端工程师 StephenZ_:我9月份找的第一段实习也是遇到这种骗子公司了,问他后端有多少人和我说7个正职,进去一看只有一个后端剩下的都是产品前端算法(没错甚至还有算法)。还是某制造业中大厂,我离职的时候还阴阳怪气我
点赞 评论 收藏
分享