斑马智行大模型算法实习一面

1. 项目和八股:
1.线性注意力的算子了解多少
2.mamba和RWKV的区别
3.具体说一下IA3
4.DPO什么情况下会没有效果
5.模型训练和sft有什么区别 计算损失有什么区别
6.ES的底层如何实现语义向量检索的
7.格式化回答风格除了设计prompt模板 还可以通过什么方面进行格式化

2.手撕
softmax 实现
全部评论
模型训练和sft有什么区别 计算损失有什么区别咋回答的
点赞 回复 分享
发布于 昨天 23:07 湖南

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务