关注
在学习率默认1e-3的情况下,batchsize取100更好,10000太大了。正常来说batchsize肯定是越大收敛速度越快,大的batchsize需要的batch数目少,1个小时就可以训练完imageNet。而且大的batchsize梯度更稳定,loss曲线更平滑。但是如果batchsize过大,会导致效果变差(大的batchsize收敛到sharp minimum, 小的batchsize收敛到flat minimum,后者泛化能力更好)。论文中目前研究batchsize超过8000之后,效果就不好了。当然如果能够增大学习率,可能10000是最优的(因为样本量也挺大的)。我觉得面试官这个题目应该多给些条件,比如学习率固定为多少?
查看原帖
1 评论
相关推荐
01-02 01:14
电子科技大学 Java 点赞 评论 收藏
分享
01-09 15:54
吉首大学张家界学院 运维工程师 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 在大厂上班是一种什么样的体验 #
9785次浏览 124人参与
# 为了减少AI幻觉,你注入过哪些设定? #
3944次浏览 134人参与
# 我现在比当时_,你想录用我吗 #
8287次浏览 109人参与
# 机械人避雷的岗位/公司 #
43083次浏览 290人参与
# 程序员找工作至少要刷多少题? #
16944次浏览 233人参与
# 你认为工作的意义是什么 #
248962次浏览 1497人参与
# 一张图晒一下你的AI员工 #
4691次浏览 111人参与
# 论秋招对个人心气的改变 #
9910次浏览 152人参与
# 刚入职的你踩过哪些坑 #
6411次浏览 127人参与
# AI Coding的使用心得 #
4303次浏览 99人参与
# 关于春招/暑期实习,你想知道哪些信息? #
6989次浏览 119人参与
# 牛客AI体验站 #
6164次浏览 168人参与
# 晒晒你司的新年福利 #
7813次浏览 101人参与
# 12306一秒售罄,你抢到回家的票了吗? #
1770次浏览 46人参与
# 总结:哪家公司面试体验感最差 #
92824次浏览 429人参与
# 程序员能干到多少岁? #
8145次浏览 114人参与
# 你认为小厂实习有用吗? #
117896次浏览 679人参与
# 柠檬微趣工作体验 #
14742次浏览 83人参与
# 互联网公司评价 #
485370次浏览 4109人参与
# 应届生进小公司有什么影响吗 #
118160次浏览 1158人参与