首页 > 试题广场 >

与传统的卷积神经网络（CNN）相比，Vision Trans

[单选题]

与传统的卷积神经网络（CNN）相比，Vision Transformer (ViT) 模型在处理图像时的一个根本性区别在于？

ViT 的推理速度总是比同等参数量的 CNN 更快。

ViT 通过自注意力机制（Self-Attention）来显式地建模图像块（Patches）之间的长距离依赖关系，而 CNN 主要通过堆叠的局部卷积核来隐式地扩大感受野。

ViT 在训练时不需要进行数据增强，因为它具有更强的泛化能力。

ViT 完全不使用任何形式的卷积操作来提取特征。

查看答案及解析

这道题你会答吗？花几分钟告诉大家答案吧！

提交观点

问题信息

计算机视觉

难度：

0条回答 0收藏 11浏览

热门推荐

相关试题

下面关于Z-Buffer算法的论断...

计算机视觉

评论(11) 来自4399游戏2015校园...
Fisher 线性判别函数的求解过...

计算机视觉

评论(7) 来自百度2016研发工程师笔...
下面哪一种算法不是图像空间的消隐算法?

计算机视觉

评论(6) 来自完美世界2016实习生笔试题
文

枚举

评论(3)
【模板】二维费用背包

动态规划小红书

评论(2)

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号