首页 > 试题广场 >

在语义分割项目中,每张 GPU 只能跑 batch size

[单选题]
在语义分割项目中,每张 GPU 只能跑 batch size=2,且无法启用跨卡同步(带宽受限)。直接使用 BatchNorm 导致训练不稳定、收敛慢。以下哪种改动在不依赖跨卡通信的前提下最能稳定训练且对推理时延影响可控?
  • 将 BatchNorm 替换为 GroupNorm,并合理设置每组通道数
  • 将 BatchNorm 的 momentum 调到极低如 1e-5
  • 仅把 BatchNorm 冻结为 eval 模式并继续训练其他参数
  • 把学习率增大一倍以增大梯度噪声

这道题你会答吗?花几分钟告诉大家答案吧!