损失函数值高于全局最小值,且周围存在多个局部最小值
梯度为零,但Hessian矩阵同时包含正特征值和负特征值
只有使用自适应学习率优化器(如Adam)才能逃离,SGD无法处理
仅出现在高维模型中,低维线性模型不会存在鞍点
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题