腾讯NLP一面面经
面试时间:3.28
流程:自我介绍—>项目/八股穿插—>手撕代码(本地IDE)——>反问
时长:约70分钟
八股:
RoBERTa的改进
中文RoBERTa的分词(不过这点面试官说不了解也没关系)
focal loss
lora原理
什么情况下适合全参数微调,什么情况下适合lora微调(我答的数据量少、单一任务时更适合lora,因为lora更新的参数少,原论文没有对FFN更新,任务单一数据少时直接全参数微调容易出现灾难性遗忘/原始能力丧失。不清楚是否准确)
对知识蒸馏的了解
代码:
beam search 先说原理再写伪代码(只需要写出搜索部分)
编辑距离
面的是微信输入法的岗位,业务偏传统nlp,项目问的比较多
流程:自我介绍—>项目/八股穿插—>手撕代码(本地IDE)——>反问
时长:约70分钟
八股:
RoBERTa的改进
中文RoBERTa的分词(不过这点面试官说不了解也没关系)
focal loss
lora原理
什么情况下适合全参数微调,什么情况下适合lora微调(我答的数据量少、单一任务时更适合lora,因为lora更新的参数少,原论文没有对FFN更新,任务单一数据少时直接全参数微调容易出现灾难性遗忘/原始能力丧失。不清楚是否准确)
对知识蒸馏的了解
代码:
beam search 先说原理再写伪代码(只需要写出搜索部分)
编辑距离
面的是微信输入法的岗位,业务偏传统nlp,项目问的比较多
全部评论
佬有后续吗
哪个BU啊
卧槽,beam search 还要写伪代码,咋写呀?
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
等闲_:感觉有好多地方会被问穿,mysql存储向量这个方案问题应该很大的,如果深问的的话,为什么不用es,不用pg,不用mivus,分块策略是怎么做的,向量化是怎么向量化的,稠密向量还是稀疏向量,再深问余弦相似度,HSWM算法,Bm25算法,为什么不用混合检索或者Rank重排序优化?其他的项目不停机分库分表咋实现的,切库过程中数据有diff的话有没有补偿策略?既然有了分库分表了有没有碰到业务上不好优化的慢sql,让这个sql读从库?而且点评的话,最好自己压测过,要不这个数据也不好解释。现在就27的情况来看,很多同学已经有了中大厂实习,这个节点也会偏向这些有大厂实习的92同学,而且hc也不多,所以坚持海投吧 点赞 评论 收藏
分享
点赞 评论 收藏
分享