26校招-字节广告算法一面
1.以项目拷打为主,挖得很深,面试官水平很高,实习时唯一一个糊弄过去的点都被找出来了
2.如何获得训练数据的,测试集上的评估方法是什么?
3.大模型得到的结果为什么要额外走一轮校验
4.如何评估sft后模型的效果
5.GRPO具体是怎么做的
6.GRPO的reward怎么设计的
7.是否有reward hacking问题,怎么避免
8.GRPO公示介绍一下
9.GRPO如何评估“优势值”
10.对称的clip可能会遇到什么问题
11.思维链具体怎么构建的,怎么确保其准确性
12.多模态处理后置信度如何评估
13.多模态模型如何将文本和图像映射到同一向量空间
14.模型训练的损失函数和目标分别是什么
15.如何衡量图像embedding和文本embedding之间的相似度
16.如何评估模型输出结果的准确性
17.SFT和强化学习之间的区别在哪里,分别适用什么场景
18.模型在业务场景的泛化性如何考虑
19.人工标注vs模型标注,如果使用模型来打标,可能会遇到什么样的问题
20.Transformer的encoder和decoder区别
21.介绍self attention和cross attention
22.手撕题:在一个数组中找到一个先严格递增再严格递减的子序列(“山峰”形序列),并使这个子序列的长度尽可能长
2.如何获得训练数据的,测试集上的评估方法是什么?
3.大模型得到的结果为什么要额外走一轮校验
4.如何评估sft后模型的效果
5.GRPO具体是怎么做的
6.GRPO的reward怎么设计的
7.是否有reward hacking问题,怎么避免
8.GRPO公示介绍一下
9.GRPO如何评估“优势值”
10.对称的clip可能会遇到什么问题
11.思维链具体怎么构建的,怎么确保其准确性
12.多模态处理后置信度如何评估
13.多模态模型如何将文本和图像映射到同一向量空间
14.模型训练的损失函数和目标分别是什么
15.如何衡量图像embedding和文本embedding之间的相似度
16.如何评估模型输出结果的准确性
17.SFT和强化学习之间的区别在哪里,分别适用什么场景
18.模型在业务场景的泛化性如何考虑
19.人工标注vs模型标注,如果使用模型来打标,可能会遇到什么样的问题
20.Transformer的encoder和decoder区别
21.介绍self attention和cross attention
22.手撕题:在一个数组中找到一个先严格递增再严格递减的子序列(“山峰”形序列),并使这个子序列的长度尽可能长
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
LazyBreeze:比较是偷走幸福的小偷
点赞 评论 收藏
分享