SSD算法学习及PyTorch代码分析[1]-整体框架

SSD(Single Shot Multibox Detector)是one-stage目标检测算法的典型代表,SSD在速度上表现不错,精度上也不差,是一个非常优秀的算法。

这里,通过SSDPyTorch代码进行分析学习。这篇主要分析SSD的整体网络,有个大致的概念。
一些用到的卷积计算公式:

图像卷积输出大小公式(正常): o = i k + 2 p s + 1. o = \left\lfloor \frac{i - k+2p}{s} \right\rfloor + 1. o=sik+2p+1.

图像卷积输出大小公式(ceil_mode): o = i k + 2 p s + 1. o = \left\lceil \frac{i - k+2p}{s} \right\rceil + 1. o=sik+2p+1.

图像卷积输出大小公式(带空洞卷积 d d d): o = i k + 2 p ( k 1 ) ( d 1 ) s + 1. o = \left\lceil \frac{i - k+2p-(k-1)*(d-1)}{s} \right\rceil + 1. o=sik+2p(k1)(d1)+1.

i i i为输入图片大小, k k k为卷积核大小, p p p为padding大小, s s s为stride大小, d d d为(空格数+1)

1. VGG部分 {conv1_2, conv2_2, conv3_3, conv4_3, conv5_3, fc6(conv6), fc7(conv7)}

# 这里给出输入图像的大小(C,H,W)
input_size:(3, 300, 300)
# conv1_2
Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
# 这里给出通过conv_2后图像计算方式和大小, 后面的image_size亦是如此
image_size:(300-2+2*0)/2+1=150 (64, 150, 150)
    
# conv2_2
Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
image_size:(150-2+2*0)/2+1=75 (128, 75, 75)
    
# conv3_3
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=True)
image_size: ceil[(75-2+2*0)/2+1]=38 (256, 38, 38)
   
# conv4_3
Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))#-->
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
image_size:(38-2+2*0)/2+1=19 (512, 19, 19)
    
# conv5_3
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=3, stride=1, padding=1, dilation=1, ceil_mode=False)
image_size:(19-3+2*1)/1+1=75 (64, 19, 19)

# conv6,空洞卷积
Conv2d(512, 1024, kernel_size=(3, 3), stride=(1, 1), padding=(6, 6), dilation=(6, 6))
ReLU(inplace)
image_size:(19-3+2*6-(3-1)*(6-1)/1+1=19 (1024, 19, 19)
    
# conv7
Conv2d(1024, 1024, kernel_size=(1, 1), stride=(1, 1))#-->
ReLU(inplace)
image_size:(19-1+2*0)/1+1=19 (1024, 19, 19)

2. Extra Feature Layers{conv8_2, conv9_2, conv10_2, conv11_2}

input_size:(19,19)
# conv8_2
Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1)) #-->
image_size:(19-3+2*1)/2+1=10 (10,10)

# conv9_2
Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))#-->
image_size: (10-3+2*1)/2+1=5 (5,5)
    
# conv10_2
Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1))#-->
image_size: (5-3+2*0)/1+1=3 (3,3)

# conv11_2
Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1))#-->
image_size: (3-3+2*0)/2+1=1 (1,1)

其中#-->表示连接到detections层,做定位与置信度分类层

3. Loc Layer

Conv2d(512, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(1024, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(512, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

4. Conf Layer

Conv2d(512, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(1024, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(512, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
全部评论

相关推荐

最近群里有很多同学找我看简历,问问题,主要就是集中在明年三月份的暑期,我暑期还能进大厂嘛?我接下来该怎么做?对于我来说,我对于双非找实习的一个暴论就是title永远大于业务,你在大厂随随便便做点慢SQL治理加个索引,可能就能影响几千人,在小厂你从零到一搭建的系统可能只有几十个人在使用,量级是不一样的。对双非来说,最难的就是约面,怎么才能被大厂约面试?首先这需要一点运气,另外你也需要好的实习带给你的背书。有很多双非的同学在一些外包小厂待了四五个月,这样的产出有什么用呢?工厂的可视化大屏业务很广泛?产出无疑是重要的,但是得当你的实习公司到了一定的档次之后,比如你想走后端,那么中厂后端和大厂测开的选择,你可以选择中厂后端(注意,这里的中厂也得是一些人都知道的,比如哈啰,得物,b站之类,不是说人数超过500就叫中厂),只有这个时候你再去好好关注你的产出,要不就无脑大厂就完了。很多双非同学的误区就在这里,找到一份实习之后,就认为自己达到了阶段性的任务,根本不再投递简历,也不再提升自己,玩了几个月之后,美其名曰沉淀产出,真正的好产出能有多少呢?而实际上双非同学的第一份实习大部分都是工厂外包和政府外包!根本无产出可写😡😡😡!到了最后才发现晚了,所以对双非同学来说,不要放过任何一个从小到中,从中到大的机会,你得先有好的平台与title之后再考虑你的产出!因为那样你才将将能过了HR初筛!我认识一个双非同学,从浪潮到海康,每一段都呆不久,因为他在不断的投递和提升自己,最后去了美团,这才是双非应该做的,而我相信大部分的双非同学,在找到浪潮的那一刻就再也不会看八股,写算法,也不会打开ssob了,这才是你跟别人的差距。
迷茫的大四🐶:我也这样认为,title永远第一,只有名气大,才有人愿意了解你的简历
双非本科求职如何逆袭
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务