首页 > 试题广场 >

与传统的卷积神经网络(CNN)相比,Vision Trans

[单选题]
与传统的卷积神经网络(CNN)相比,Vision Transformer (ViT) 模型在处理图像时的一个根本性区别在于?
  • ViT 的推理速度总是比同等参数量的 CNN 更快。
  • ViT 通过自注意力机制(Self-Attention)来显式地建模图像块(Patches)之间的长距离依赖关系,而 CNN 主要通过堆叠的局部卷积核来隐式地扩大感受野。
  • ViT 在训练时不需要进行数据增强,因为它具有更强的泛化能力。
  • ViT 完全不使用任何形式的卷积操作来提取特征。

这道题你会答吗?花几分钟告诉大家答案吧!