固定的学习率衰减(Learning Rate Decay)策略。
对梯度进行L2范数裁剪(Gradient Clipping)。
梯度的二阶矩估计(即梯度的未中心化方差的移动平均)。
Nesterov 加速梯度(Nesterov Accelerated Gradient)。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题