首页 > 试题广场 >

Adam 优化器是深度学习中广泛应用的算法。除了引入了类似动

[单选题]
Adam 优化器是深度学习中广泛应用的算法。除了引入了类似动量(Momentum)的一阶矩估计,它还引入了哪个核心机制来为每个参数独立地调整学习率?
  • 固定的学习率衰减(Learning Rate Decay)策略。
  • 对梯度进行L2范数裁剪(Gradient Clipping)。
  • 梯度的二阶矩估计(即梯度的未中心化方差的移动平均)。
  • Nesterov 加速梯度(Nesterov Accelerated Gradient)。

这道题你会答吗?花几分钟告诉大家答案吧!