首页 > 试题广场 >

在训练一个 8 层堆叠的 LSTM 进行长序列建模时,观察到

[单选题]
在训练一个 8 层堆叠的 LSTM 进行长序列建模时,观察到梯度范数偶发性爆炸导致损失为 NaN,训练不稳定且 GPU 利用率下降。以下哪项调整最直接有效且工程上易于落地?
  • 对梯度进行全局范数裁剪(如 clip_grad_norm_)
  • 将 dropout 概率从 0.2 提升到 0.6
  • 将门控单元的激活函数从 tanh 改为 ReLU
  • 对输入序列做随机裁剪的数据增强

这道题你会答吗?花几分钟告诉大家答案吧!