首页 > 试题广场 >

在一个自然语言处理任务中,模型的某些参数(例如与罕见词相关的

[单选题]
在一个自然语言处理任务中,模型的某些参数(例如与罕见词相关的嵌入向量)更新非常稀疏,而另一些参数更新则非常频繁。为了能够对不同参数自适应地调整学习率,以下哪种优化器是理论上和实践中最适合的选择?
  • 带有动量(Momentum)的随机梯度下降(SGD)。
  • Adam (Adaptive Moment Estimation)。
  • Nesterov Accelerated Gradient (NAG)。
  • 朴素的随机梯度下降(SGD)。

这道题你会答吗?花几分钟告诉大家答案吧!