ViT 的推理速度总是比同等参数量的 CNN 更快。
ViT 通过自注意力机制(Self-Attention)来显式地建模图像块(Patches)之间的长距离依赖关系,而 CNN 主要通过堆叠的局部卷积核来隐式地扩大感受野。
ViT 在训练时不需要进行数据增强,因为它具有更强的泛化能力。
ViT 完全不使用任何形式的卷积操作来提取特征。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题