字节大模型算法校招一面
1、实习介绍
2、讲述论文内容和细节。
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题。
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好。
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势。
6、欠拟合和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000,为什么设置10000
8、手撕:岛屿的数量。
2、讲述论文内容和细节。
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题。
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好。
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势。
6、欠拟合和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000,为什么设置10000
8、手撕:岛屿的数量。
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看15道真题和解析
