字节搜推算法实习一面 50min
挖的很深,简历细节需把握
1.实习深挖
2.介绍数据向量化,用过什么模型
3.介绍Flash Attention的原理,复杂度有什么变化
4.介绍Int8量化原理,具体做了什么操作把FP16变成Int8
5.大模型常用的旋转位置编码原理,相对位置编码会有什么问题
6.论文里的交叉注意力机制具体是怎么做的
7.介绍Transformer架构整体的基础细节,归一化用的什么,Layer Norm在残差连接前做还是后
8.介绍Batch Norm原理,训练和推理阶段分别怎么处理,两个超参数是什么
9.日常数据清洗做的多吗
10.手撕二叉树最长的简单路径
1.实习深挖
2.介绍数据向量化,用过什么模型
3.介绍Flash Attention的原理,复杂度有什么变化
4.介绍Int8量化原理,具体做了什么操作把FP16变成Int8
5.大模型常用的旋转位置编码原理,相对位置编码会有什么问题
6.论文里的交叉注意力机制具体是怎么做的
7.介绍Transformer架构整体的基础细节,归一化用的什么,Layer Norm在残差连接前做还是后
8.介绍Batch Norm原理,训练和推理阶段分别怎么处理,两个超参数是什么
9.日常数据清洗做的多吗
10.手撕二叉树最长的简单路径
全部评论
相关推荐
查看21道真题和解析