快手算法大模型二面-40min

1. 大模型预测 token 的损失是怎么算的?有哪几种常见的损失函数?
2. 讲讲大模型的思维链技术?
3. 聊聊 Transformer?它有啥优势?位置编码是咋做的,有啥改进?ROPE 是啥?Transformer 是怎么把文本转成 token 的?
4. Lora 微调八股:矩阵 A, B 怎么初始化?为啥 B 要初始化成 0,A 不行吗?啥是矩阵的秩?
5. Bert 和 GPT 有啥区别?大模型时代,小模型还有用吗?
6. MHA 是啥?有啥改进?讲讲 DeepSeek 的 MLA?
7. MOE 一般加在哪?从训练和推理的角度看,MOE 有啥好处?
8. 你设计提示词时,一般遵循啥范式?
算法题:二叉树的层序遍历
全部评论

相关推荐

12-17 20:43
吉林大学 Java
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-29 20:46
淘天 开发 n*16+2.8*12+m签字费 大专
屋顶的闪闪星光:1、淘天、蚂蚁放一块,相差不大,放弃待遇低的蚂蚁。 2、小红书虽然待遇最高,但是背书最差,且公司这个阶段不稳定,6千块钱不舍得,放弃。 3、字节跟淘天相比,建议去淘天,先把技术、履历刷好,过上2、3年再跳槽去字节变现,这样更稳一些。 再有问题可以私信详细沟通
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务