问题一, 我感觉BN强行对每层特征都中心化可能并不是一个绝对正确的先验吧。 按batch来讲的话,如果batch太小,用moving average去估计global average的偏差可能会比较大,或者数据本身冗余太大, global variance的偏差会比较大。 问题二,会不会和重要采样之类的东西有关啊,这么大的类别输出,你softmax 都很难求。 问题三,核函数的话,我记得有个理论说只要kernel满足某些条件就有一个内积结构与之对应(西瓜书上好像有),所以这个题目会不会有点问题?
点赞 评论

相关推荐

不愿透露姓名的神秘牛友
12-16 15:57
小鹏汽车 java后端 22*15(固定13,2个月年终) 硕士211
点赞 评论 收藏
分享
12-13 14:51
已编辑
井冈山大学 算法工程师
龙虾x:算法比你强的没有你美,比你美的…..算了已经没有比你美的了
工作两年想退休了
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务