在处理一个具有稀疏特征的大规模数据集时,你选用了 AdaGrad 优化器。虽然在训练初期模型收敛速度很快,但发现在训练后期,模型的学习过程变得极其缓慢,几乎停滞。造成这种现象最可能的原因是?
AdaGrad 优化器内在机制不适用于处理稀疏特征。
学习率的分母项中累积了过多的历史梯度平方和,导致学习率过早地衰减至一个极小值。
AdaGrad 引入了动量(momentum)项,导致在优化后期于局部最小值附近产生过多振荡。
AdaGrad 的学习率是全局固定的,无法像 Adam 那样为每个参数自适应调整。