公众号对话框回复【无人车0021】获取Bev、rangeview、pointwise相关资料。
基于lidar的目标检测方法可以分成3个部分:lidar representation,network backbone,detection head,如下图所示。
根据lidar不同的特征表达方式[1],可以将目标检测方法分成以下4种:基于BEV(bird’s eye view)的目标检测方法,基于camera view的目标检测方法,基于point-wise feature的目标检测方法,基于融合特征的目标检测方法。如下
图所示。
基于bev的目标检测方法顾名思义是使用bev作为点云特征的表达,其检测流程如下图所示,包括3个部分:bev generator,network backbone, detection head。下面详细介绍一下这3个部分如何在基于bev的目标检测方法中发挥作用。
1.BEV generator
BEV图由激光雷达点云在XY坐标平面离散化后投影得到,其中需要人为规定离散化时的分辨率,即点云空间多大的长方体范围(Δl*Δw*Δh)对应离散化后的图像的一个像素点(或一组特征向量),如点云20cm*20cm*Δh的长方体空间,对应离散化后的图像的一个像素点。具体关于bev投影生成策略可以关注文章:自动驾驶中,激光雷达点云如何做特征表达[1]。
在bev generator中,需要根据Δl*Δw*Δh来生成最后L*W*H大小的bev特征图,该特征图是network backbone特征提取网络的输入,因此该特征图的大小对整个网络的效率影响很大,如pointpillar[2]通过对voxelnet[3]中bev generator的优化,整个网络效率提高了7ms。
Network backbone
网络结构的设计需要兼顾性能和效果,一般都是在现有比较大且性能比较好的网络结构基础上进行修改,可以参照文章:轻量(高效)目标检测网络结构设计[4]。以voxelnet[3]和pointpillar[2]为例,pointpillar[2]以voxelnet[3]为原型,不改变原流程的基础上,对voxelnet[3]设计做了以下一些修改,使网络效率提高了10多倍,具体如下:
简化bev中的网络结构
voxelnet[3]使用stacked vfe layer,在代码中使用了2个vfe layer,如下图所示。
pointpillar[2]简化了voxel表达形式,变成pillar,提高了数据生成效率,并且只使用了一个vfe layer,减少了2ms,如下图所示。
Pointpillar[2]在保证网络性能提升的前提下,逐步提高网络效率,从不同角度优化网络流程,最后使网络效率提高10倍有余。
detection head包括两个任务,即:目标分类与目标定位,由于bev将点云用图像的形式呈现,同时保留了障碍物在三维世界的空间关系,因此基于bev的目标检测方法可以和图像目标检测方法类比:目标分类任务与图像目标检测方法中目标分类任务没有差别;而目标定位任务可以直接回归目标的真实信息,但与图像目标检测方法中目标定位任务不同,该任务需要给出旋转框。与图像目标检测方法相同,基于bev的目标检测方法的detection head也分成anchor base的方法和anchor free的方法。
anchor base方法
以voxelnet[3]为例,需要人为设定anchor的大小,由于bev可以直接回归真实的目标大小,因此anchor也可以根据真实目标大小设定,如:以下单位为米,l、w、h分别表示anchor的长、宽、高,对于车来说anchor大小可以设定为la = 3.9,wa = 1.6,ha = 1.56,对于人la = 0.8,wa = 0.6,ha = 1.73,对于骑行者la =1.76,wa = 0.6,ha = 1.73,且对于每种anchor,设置了θa=0°和90°两种角度。由于目标有各种角度,因此为了得到更准确的角度回归,anchor的角度设置可以在[0°,180°)进行等间隔采样,获得更多不同角度的anchor,提高回归精度。回归误差的计算如下图所示。
典型代表是pixor[5],对于bbox的回归,如下图所示,对于正样本的红点p(x,y),需要回归如下信息:{cos(θ), sin(θ), dx, dy, w, l},其中θ为障碍物偏角,dx、dy分别为p点相对障碍物中心点的偏移,w、l是障碍物大小的表达。没有anchor,对目标的回归是不是简单了很多。
以上为基于bev的目标检测方法的简单介绍,该方法在目前的自动驾驶的3D目标检测方案中应用较广。
2.Camera view generator
camera view图是将每圈激光线拉成直线再按行累积而成,因此也称为range view,其中投影图的高为激光线数,宽为lidar扫描一圈的点数,如: 64线激光雷达,水平角分辨率为0.2°,生成的camera view的图大小为64*1800。camera view相对bev图小很多,因此基于camera view的方法效率都较高。具体投影图的生成策略可以关注文章:自动驾驶中,激光雷达点云如何做特征表达[2]。camera view效果如下图。
Network backbone
网络结构的设计要依据任务需求,基于camera view的目标检测方法,多是以分割任务为主,因此网络结构大都是encode+decode结构,如下图1所示。因此有关提高分割效果的网络 设计思想都可以在此使用,如图2中使用不同大小的dilation rate的卷积获得不同感受野的特征表达,如图3使用global attention增加上下文信息。更多分割增强模块,在后面会专门写一篇文章介绍。
图1 ecode+decode
图2 不同dilate rate卷积
图3 global attention
纯分割区域表达
分割与检测表达
分割任务对于基于camera view的模型相对简单,但是检测框的回归并不容易。camera view投影图增加了点云中点的上下文信息,但也将原本在3D空间分离的目标拉近,引入了遮挡与目标尺度变化,然而点云投影图又不像真实的图像那样有很丰富的纹理信息,造成了camera view图像很难做实例分割与目标框回归,因此,检测框的回归需要增加一些额外操作来实现。
在lasernet[5]中,对于目标框中的点(x,y)需要回归6个信息,如上图所示,Box Parameters为6,包括:该点相对中心点的偏移(dx,dy), 相对旋转角度 (ωx,ωy) = (cosω,sinω),以及框大小 (l,w),从而可以通过下述公式计算得到真正的目标框中心点bc以及旋转角φ,其中θ为该点在点云中的方位角,Rθ为以θ为旋转角的旋转矩阵。
另外,由于对每个点的预测存在噪声,而后又在bev投影图中使用mean shift聚类方法得到更准确的目标框。
总结:
3.Point-wise
这里我们将关注点放在如何用point-wise feature来解决自动驾驶的目标检测问题上。自2017年pointnet[3]之后出现的3D目标检测相关文章中,50%都出自香港中文大学,其中一部分来自商汤科技自动驾驶相关部门,如PointRcnn[4]、Part aware and aggregation[5]、PV Rcnn[6],另一部分来自腾讯优图实验室贾佳亚老师团队,同样也是自动驾驶相关业务方向,如IPoD[7]、Fast PointRcnn[8]、STD[9]、3DSSD[10]。这里面除了3DSSD[10]方法为one-stage detector,其他都是two-stage detector,而3DSSD[10]主打高效,从而也可以看出刷榜还得靠two-stage detector。
Network backbone
图3 pointnet++特征表达
在3DSSD[10]中,为了提高模型效率,去掉了耗时比较严重的FP模块,由于SA过程只筛选了一部分点做特征表达,对目标检测的召回影响很大,尤其对点云比较稀疏的远处的目标,影响更大,因此3DSSD[10]在D-FPS的基础上,提出了F-FPS,即通过点的语义信息来做点的筛选,保留更多的正样本的点,保证最终的目标召回率。
关于roi pooling,一般是针对单个目标,再次提取更丰富、更具表达能力的特征,因此在不同论文中,根据实例提取特征方式的不同,提出了不同的roi pooling方法,如在STD[9]中,提出了PointsPool,在Part aware and aggregation[5]中,提出了Roi aware Point Cloud Pooling,在pv-rcnn[6]中提出了Roi grid Pooling。下面分别介绍一下。
图5 canonical transformation
图6 Roi aware Point Cloud Pooling
Roi grid pooling[6]
与上面两种pooling方法不同的是,并没有将proposal通过voxel得到固定大小的特征图,而是根据pv-rcnn[6]中提出的key point信息,将proposal用6*6*6=216个grid points表达,grid points是从proposal中的key points均匀采样获得,且RoI-grid point features提取过程和key point feature提取过程是相似的。简单来说就是以grid point为中心,r为半径的区域内提取不同尺度、不同感受野的特征,最后在使用2层的MLP网络获得最终的特征表达,如图7所示。
图7 Roi grid point feature extraction
总结:
目前基于point-wise feature的目标检测方法还处于研究阶段,效率无法保证,精度还未在真实自动驾驶车上测试,但由于该方法直接从点云提取特征,极大的保留了点云的原始信息,比较有潜力得到更好的效果。
参考文献:
1、PointPillars: Fast Encoders for Object Detection from PointClouds
2、VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
3、PIXOR: Real-time 3D Object Detection from Point Clouds
4、Multi-View 3D Object Detection Network for Autonomous Driving
5、YOLO3D: End-to-end real-time 3D Oriented Object Bounding Box Detection from LiDAR Point Cloud
6、SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud7、PointSeg: Real-Time Semantic Segmentation Based on 3D LiDAR Point Cloud8、LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving已完成
数据加载中