【arXiv 20241108】浪潮科技提出SimpleBEV:进一步提升多模态感知算法性能!
一、论文导读
在本文中,作者在图像和激光雷达多模态感知算法BEVFusion框架的基础上进行改进,提出了SimpleBEV感知算法模型,在nuScenes数据集上的相关实验表明,SimpleBEV实现了77.6%的NDS指标,在3D目标检测任务上实现了SOTA的感知性能,SimpleBEV算法整体网络框架图如下所示
二、论文研究背景
感知在整个自动驾驶系统当中扮演了一个非常重要的角色。目前,自动驾驶汽车上都会配备多种传感器来获得充分、准确的感知结果。激光雷达点云提供精确的定位和几何信息,图像提供丰富的语义信息。由于两类传感器数据的互补特性,许多工作都在关注如何更好的利用视觉和激光雷达提高自动驾驶系统的3D目标检测性能。
考虑到基于BEV方式的感知算法更容易实现不同模态数据的融合,并且也实现了非常出色的感知效果。在本文中,作者在BEVFusion多模态感知算法框架的基础上进行改进,进一步提升了多模态感知算法模型的感知性能。
三、网络模型结构&技术细节梳理
上文已经展示了SimpleBEV算法的整体网络结构图。通过上图可以看出,SimpleBEV由两条分支构成,分别是Lidar Branch和Camera Branch。从而也就对应了本文的两个核心创新点。
核心创新点一:Camera Branch(针对相机分支的相关改进)
整体而言,相机分支采用的是比较常规的BEV特征构建思路,先由Image Backbone提取多尺度的图像特征,然后采用FPN网络实现多尺度特征的融合。接下来,就是将融合后的多尺度特征喂入到深度估计网络中分别预测语义特征和离散相机深度,本文在相机分支中的一个改进点就是对离散深度进行更加准确的估计,从而实现更准确的相机和激光雷达BEV特征的对齐。本文对深度估计的改进思路如下图所示,整体是Two-Stage的结构。
- 第一阶段:FPN网络输出的融合特征先过Conv层得到第一次的深度概率估计结果,然后与相应的卷积结果进行通道维度的合并,再过卷积层得到相应的离散深度概率 ;
- 第二阶段:将当前帧的激光雷达点云投影到相机视锥空间中得到 ,但由于真值点云构建的相机视锥比较稀疏,所以作者进行了填充处理。即有真值点云深度的地方用真值,没有真值点云的地方用估计出来的深度进行填充,最终得到深度 。
此外,作者也在相机分支中引入了一个辅助分支参与训练过程进一步提升相机分支中BEV特征的构建能力(辅助分支在推理过程中就被舍弃掉了)
核心创新点二:Lidar Branch(针对激光雷达分支的相关改进)
激光雷达分支的整体架构如下图所示,可以看出也是采用了常见的SECOND点云特征提取网络结构,将多个稀疏3D卷积层依次应用到特征图上,生成多尺度3D特征。
此外,为了捕获多尺度目标的能力,作者还引入了多尺度特征融合策略。首先将不同阶段的多尺度3D特征转化为多个二维BEV特征。然后,利用多次上采样和卷积运算融合多个BEV特征,得到最终的LiDAR-BEV特征。
最后,将Camera分支和LiDAR分支得到的BEV特征进行通道维度的合并,并送入到BEV Encoder模块完成进一步的特征提取,最后接3D检测头输出最终的3D检测结果。
四、实验结果部分
整体实验对比
记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)

