你好,Transformer的并行性这里是不是有点问题呢? Transformer的一个核心特性:输入序列中每个位置的单词都有自己独特的路径流经编码器。在自注意力层中,这些路径之间存在依赖关系。而前馈层没有这些依赖关系。因此在前馈层时可以并行执行各种路径。
点赞 2

相关推荐

01-19 12:48
门头沟学院 C++
只想搞钱的鸽子很喜欢...:混账是很多的,还有那些在自己风华正茂的年纪说风凉话讥讽那些下岗前员工的。这些人都是现在职场环境这么烂的帮凶
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务