采用牛顿法求解需要的迭代次数比梯度下降算法少
牛顿法每次训练迭代都需要计算Hessian矩阵的逆,运算量大
梯度下降算法靠近极小值时收敛速度减慢
训练大型网络时,如果目标函数的表面是非凸的,牛顿法优于梯度下降算法
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题