网易校招搜广推算法一面
发一下问题给大家参考,攒攒人品!
1.lora微调如何初始化
2.transformer的原理
3.为什么要除以dk
4.为什么大模型多用decoder-only
5.是否了解传统推荐
6.平常用什么语言,会Java或者c++这种工程的吗
7.手撕:最长上升子序列
1.lora微调如何初始化
2.transformer的原理
3.为什么要除以dk
4.为什么大模型多用decoder-only
5.是否了解传统推荐
6.平常用什么语言,会Java或者c++这种工程的吗
7.手撕:最长上升子序列
全部评论
相关推荐
点赞 评论 收藏
分享
