首页 > 试题广场 >

在大语言模型(LLM)的实际部署中,推理延迟是常见的瓶颈。以

[单选题]
在大语言模型(LLM)的实际部署中,推理延迟是常见的瓶颈。以下哪种优化技术能同时有效减少模型的计算量和内存占用?
  • 增加批处理大小
  • 采用模型量化(Quantization)
  • 延长序列长度
  • 使用更大的浮点精度

这道题你会答吗?花几分钟告诉大家答案吧!