flash attention, ppo, dpo, rlhf, 不同模型的embedding, (bert,bart, T5,chatglm)的预训练有什么区别,rope是什么?MQA和GQA了解多少。等等。还有很多
点赞 3

相关推荐

11-13 12:02
门头沟学院 Java
我要娶个什么名:好骂,好骂 别学计算机就行了
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务