至于bn,是为了解决层之间输入数据分布偏移,以及样本间差异导致训练速度慢。归一化也是一样的。
点赞 评论
牛客网
牛客网在线编程
牛客网题解
牛客企业服务