pre norm就是在残差前norm啊,这样残差的效果更强,训练计算量更低,但是会削弱模型深度带来的增益。post norm就是正常bert用的,在残差后面加,深度带来的效果更明显,但是计算量会更大,目前post norm认为更适合😂感觉你基础知识都没学全啊,大部分都挺基础的,gpt这么有名的自回归生成式模型都不知道,因为xlnet提出了自编码和自回归的概念,gpt可以用来做生成任务,bert不行,xlnet对此提出了解决办法

相关推荐

在写周报的打工人很独...:这个笔试昨天晚上做了一下,真难啊,前后端,ai全有
点赞 评论 收藏
分享
回家当保安:复旦✌🏻,佬你的简历感觉挺好的,寒假日常hc比较少。佬可以过完年之后再试试,日常实习hc比较充足
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务