同时跟踪梯度的一阶矩(均值)和二阶矩(方差)估计,自适应调整学习率
使用固定的学习率,不随迭代过程调整
仅依赖当前批次的梯度值,不积累历史梯度信息
对学习率的初始值非常敏感,需要精细调参才能收敛
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题