度小满 NLP二面面经
1.自我介绍
2.抓着项目的一些问
面试官喜欢问从顶层的实验设计的一些东西
我的实验为什么要选用 cos 距离或者 mse?
能不能用 KL散度?是不能用还是不好用?
KL 散度和交叉熵的区别和联系是什么?
(都是我没考虑过的问题 有点汗流浃背)
既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?
prompt tuning ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)
为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。
有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?
你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?
有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?
最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。
反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
2.抓着项目的一些问
面试官喜欢问从顶层的实验设计的一些东西
我的实验为什么要选用 cos 距离或者 mse?
能不能用 KL散度?是不能用还是不好用?
KL 散度和交叉熵的区别和联系是什么?
(都是我没考虑过的问题 有点汗流浃背)
既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?
prompt tuning ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)
为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。
有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?
你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?
有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?
最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。
反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
全部评论
请教下大佬是春招还是社招呀?deepspeed分布式方向岗位怎么样呢?拿了相关offer
感谢分享,想问下dalao做的都是什么项目~
相关推荐
牛客30461999...:写的真好啊,文学功底好。有句话感触很深,AI的确提效了,按理说同样的工作内容,如果有AI的帮助,完全不用加班就能搞定。但现在加班现象依旧普遍,这是由社会观念、制度决定的,社会以生产最大为导向,AI节省的时间、创造的价值流向资本而不是打工人,同时有了AI竞争更大了,对工作的要求、速度要求都上升了。 点赞 评论 收藏
分享
10-30 16:38
华东理工大学 嵌入式软件开发 从八月底开始投了135家,全都是嵌入式软件岗。只有经纬恒润给了面试,且二面挂。准备沉淀沉淀备战春招了😭lu过的大佬帮忙看看简历,是缺个对口实习,还是做个更有深度的项目,还是别转码了直接老老实实下车间😭
不知道怎么取名字_:两个方向
1.简历针对性准备下
2.面试前也需要准备的
主要还是要看各个公司需求,看公司行业和岗位描述,那里面已经写了对技术的需求,一份简历,不可能和所有嵌入式岗位都匹配的 点赞 评论 收藏
分享
