首页 > 试题广场 >

在分布式训练大型Transformer模型时,模型并行(Mo

[单选题]
在分布式训练大型Transformer模型时,模型并行(Model Parallelism)主要针对以下哪种场景?
  • 数据集过大无法在单节点处理
  • 模型参数超出单个设备显存容量
  • 批次尺寸设置过大导致的效率问题
  • 优化器梯度累积的内存瓶颈

这道题你会答吗?花几分钟告诉大家答案吧!