淘天大模型算法实习二面
1.介绍自己的项目
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
2.BLEU和ROUGE
3.self-attention求内积时为啥除以根号d
4.LLM的评估
5.介绍下simCSE
6.解决tokens不够的问题应该怎么办
7.详细介绍下deepspeed(三个stage结合参数回答)
8.gpt和llama的区别(模型结构上的)
9.PEFT的方式,LORA论文讲一下,对比p-tuning
10.LLM训练的时候为什么warmup
11.对比学习中的batch size是大一些好还是小一些好
13.了解最新技术一般怎么通过什么渠道
14.代码题:lc347 前 K 个高频元素
全部评论
相关推荐
12-16 20:45
东南大学 C++ 点赞 评论 收藏
分享