【3D目标检测】Multi-View 3D Object Detection Network for Autonomous Driving论文综述（2016）

以后工作要做自动驾驶环境感知了，从今天开始更新3D目标检测相关的论文综述，刚把爹！摘要：本文提出MV3D，能够融合LIDAR和RGB图像信息以预测有向3D边界框。MV3D将点云用多视角（multi-view）表征，模型包括两个子网络，一个子网络基于点云数据的鸟瞰图生成3D候选区，另外一个子网络用于多视角特征的深度融合（deep fusion）。1、引言本文的关注重点在用如何充分利用雷达和图像数据提

蓝田生玉123

1351人浏览 · 2020-11-11 21:57:02

蓝田生玉123 · 2020-11-11 21:57:02 发布

以后工作要做自动驾驶环境感知了，从今天开始更新3D目标检测相关的论文综述，刚把爹！
摘要：本文提出MV3D，能够融合LIDAR和RGB图像信息以预测有向3D边界框。MV3D将点云用多视角（multi-view）表征，模型包括两个子网络，一个子网络基于点云数据的鸟瞰图生成3D候选区，另外一个子网络用于多视角特征的深度融合（deep fusion）。

1、引言
本文的关注重点在用如何充分利用雷达和图像数据提供的信息。最近的基于lidar的方法主要是先把点云体素化然后用3D CNN分类回归，或者在点云前视图中使用2D CNN。而基于图像的方法通常首先生成3D 候选区，然后用Fast rcnn的路线对各候选区进行识别。基于图像的方法通常在2D框回归中效果更好，而基于点云的方法通常在3D定位中效果比较好。但在3D目标检测问题中，两种模态信息如何充分发挥长处是需要好好考虑模型的设计的。
本文提出的MV3D主要思想就是利用多模态信息实现区域特征融合。MV3D包括两个子网络，3D候选区生成网络利用点云鸟瞰图生成3D候选框，这个3D候选框可以很轻易在投射到任何视角里。多视角融合网络通过将3D候选区投射到多个视角的特征图上来提取区域特征。
效果很好。

2、相关研究
基于点云的3D目标检测: Sliding Shapes, Deep Sliding Shapes, Vote3D，Vote3Deep, VeloFCN
基于图像的3D目标检测：3DVP, 3DOP, Mono3D
多模态融合：FractalNet, Deeply-Fused Net
3D目标候选区：

3. MV3D Network
在这里插入图片描述

3.1 3D点云表达
现有的方法一般都是把3D点云进行体素化为3D网格后用3D CNN处理，或者投影成前视图。3D CNN计算量大，故我们将点云投影成鸟瞰图。
鸟瞰图表达：鸟瞰图编码为高度，强度，密度三种信息。首先对点云数据离散化为分辨率0.1米的网格，在每个网格中取高度最大的点作为这个网格的高度，形成一个通道。为编码点云里更详细的高度信息，需要对点云进行分层切片，包括嘴上面的通道共分成M个切片（即M个通道），每个切片中的网格选择该网格所有点中最高点的高度值作为该网格的值。强度特征通道（一个）选择采用每个网格区域中最高点的反射率作为该网格的强度值。密度通道中的每个网格的值是每个网格中点的数目N，并用下式进行标准化后的值：
在这里插入图片描述

最后一个是M+2个通道，即M个高度通道，1个强度通道和1个密度通道。

前视图表达：前视图是通过将点云数据投影在圆柱面得到的。任意一个点云中的点p=(x,y,z)在前视图对应的列数c和行数为：
在这里插入图片描述

式中的两个delta分别代表激光束在水平和垂直方向的激光束。前视图用三个通道编码：高度，距离，以及强度，如下图(b)示。

在这里插入图片描述

3.2 3D候选区网络
之所以选择鸟瞰图来生成3D候选区，而不是用前视图或者rgb图片，有如下原因：
（1）鸟瞰图中较好地保存了目标的尺寸信息（因为有很多个深度通道）。
（2）鸟瞰图中的目标占据了不同的空间，故避免了遮挡问题。
（3）道路场景中目标一般位于地面上，在垂直方向有较小的扰动，故鸟瞰图可以获得更加准确的3D位置。

基于鸟瞰图中的先验框（anchor box）可以生成一系列的3D候选框(proposal)，每个候选框用（x,y,z,l,w,h）表示。每个anchor box（x,y,l,w）在鸟瞰图中对应的先验框为（xbv, ybv, lbv, wbv）。我们在每个网格设计了4个Anchor box（根据在训练结果中聚类得到的）。针对车辆检测，anchor box的（l,w）取值为{(3.9, 1.6), (1.0, 0.6)}，高度h固定为1.56m。通过将此anchor框旋转90度，得到另外两个anchor框，这样共计是4个anchor box. (x,y)在鸟瞰图中不断变化，z值可以通过相机高度和目标高度计算得到。我们在生成3D候选框时不做角度预测，即预测的3D候选框是直来直去的，而将角度预测放到第二阶段做。3D候选框的角度限制在{0, 90}之间。这种简化使得候选区生成的训练过程变得简单。
点云离散生成鸟瞰图的分辨率是0.1米，即每个鸟瞰图中的像素点在实际场景中的长度和宽度是0.1m，这样的话每个目标框占据范围为5~40个像素。检测到这样的小目标依然比较困难。故我们在候选区网络之前的最后一层做了一个上采样，这样进入到候选区网络feature map的长宽是原始输入鸟瞰图的1/4。我们做3D框回归x,y,z,l,w,h的偏移值t：
在这里插入图片描述

Delta_x，delta_y, delta_z分别以anchor的长宽高作为单位的归一化的量，delta_l, delta_w, delta_h取的是相对gt box的log对数：
在这里插入图片描述

训练阶段，分类损失用交叉熵，回归损失用smooth L1损失。鸟瞰图中的Anchor与gt的iou值大于0.7视为正例，小于0.5视为负例，介于中间的忽略。
上述回归过程类似于faster rcnn。

3.3. 基于区域的融合网络
多视角ROI Pooling：因为不同视角/模态的分辨率是不同的，故要采用ROI 池化保证每个视角获得相同长度的向量。基于鸟瞰图生成的3D proposal采用的坐标系是雷达坐标系，故将该3D proposal投射到鸟瞰图、正视图以及RGB图中时需要分别做坐标系的变换。

深度融合：融合+提取特征+融合+提取特征。。。
有向3D框回归：采用预测8个角点偏移量共计24个值的方式，3D框的方向可根据这8个角点获得，这种冗余预测比预测3D box的中心点及长宽高的偏移效果要好。
网络正则化：随机丢弃模态（概率0.5）以及辅助监督，辅助监督只在训练时使用，推断时丢掉。如下图所示。
在这里插入图片描述

3.4 实现
网络架构：
输入表达：在KITTI中只提供了范围是90度的前视图的标注。故我们使用的点云数据的范围是[0, 70.4m][-40m, 40m]。对于鸟瞰图，离散化的分辨率是0.1m，故鸟瞰图的分辨率是704800，因为KITTI用的是64线激光雷达，点云前视图大小为64*512，对RGB图片上采样保证最短边大小是500。

4，实验
在KITTI上做的实验，但是是从训练集中分出一半作为验证集。
Table1是在鸟瞰图上的3D定位结果，Table2是3D框的定位结果。
在这里插入图片描述