时序融合—3D物体检测 FaF是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法:《Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net》发表于CVPR 2018。该论文提出了一种结合检测,跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测,跟踪,轨迹预测与规划等模块,下游模块以上游模块的结果作为输入。这样的解决方案存在一个问题,即每个模块的误差会在下游逐步累积,例如误检或漏检的物体会对后续的跟踪与预测带来很大影响,从而造成错误的规划,最终对乘车舒适度甚至安全造成负面影响。FaF提出了一种端到端的网络用以同时完成检测,追踪和预测三项任务,从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下,把每一帧的点云进行体素化 (voxelization);同时为了避免在单帧上使用3D卷积及其所引入的计算复杂度,将高度这一维作为通道 (channel),从而将每一帧表示成为一个三维张量以便使用2D卷积处理。网络以多帧点云的鸟瞰图作为输入,直接输出当前输入5帧的检测结果以及未来10帧的预测结果 (如下图所示)。
[1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016.
[2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016.
[3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017.
[4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018.
[5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018.
[6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019.