Google和Waymo最新行为预测方法VectorNet

来源:公众号“汽车电子与软件”
2020-05-19
2580


1.gif

2.jpg

摘要:因为道路组件的表示复杂性和交互性,包括移动目标(例如行人和车辆)和道路上下文信息(例如车道和红绿灯),动态多代理系统的行为预测是自动驾驶汽车的一个重要问题。本文介绍VectorNet,一个分层图神经网络(GNN)。首先,其用矢量表示各个道路组件的空间局部性,然后对所有组件之间的高级交互进行建模。最近的方法将移动目标和道路上下文信息的轨迹呈现为鸟瞰图像,并用卷积神经网络(ConvNets)进行编码。与其相反,该文方法以矢量形式进行操作。通过对矢量化的高清(HD)地图和代理轨迹进行操作,避免了有损渲染和计算密集型ConvNet编码的步骤。为进一步增强VectorNet在学习上下文特征方面的能力,文章提出了一项新辅助任务,根据上下文恢复随机掩盖的地图实体和代理轨迹。根据内部行为预测基准和最近发布的Argoverse预测数据集,对VectorNet进行了评估。该方法在两个基准均达到了与渲染方法相同或更好的性能,同时节省了70%以上的模型参数,而且FLOPs减少了一个数量级。它在Argoverse数据集的表现也超越了现有技术。


如图就是以前渲染表示方法和矢量化表示方法的比较:

3.jpg

该方法的概貌如图所示:它是一种分层图结构,连接具有相同语义标签属于相同折线的向量并嵌入到折线特征中,而所有折线彼此完全连接以交换信息。用多层感知器(multi-layer perceptrons)实现局部图,并用自注意(self-attention)实现全局图。

4.jpg

如图是该图中相同折线的矢量节点计算流:

5.jpg

折线子图网络(polyline subgraph network)可以看作是3D PointNet的概括。但是,将排序信息嵌入矢量、基于折线分组约束子图的连通性以及将属性编码为节点特征,该方法更适合于编码结构化地图标注和代理轨迹。

为促进全局交互图更好地捕获不同轨迹和地图的折线之间交互,文中引入了辅助的图完整(graph completion)任务。图完整的目标与自然语言处理(NLP)的BERT方法密切相关,后者基于离散和顺序文本数据的双向上下文来预测丢失的标记。

几种最近方法将BERT目标概括为具有预计算视觉特征的无序图像块,该文方法与之不同,节点特征在端到端框架中联合优化。

多任务训练目标函数定义为:

6.jpg

其中L_traj是真实未来轨迹负高斯对数似然,L_node是预测节点特征与真实掩码节点特征之间Huber损失。将预测轨迹参数化为从最后观测位置开始的坐标偏移,根据目标车辆在最后观测位置的航向旋转坐标系。

如图是结果展示:左图是预测(prediction)可视化,右图是对道路和代理的注意(attention)可视化。

7.jpg

下表是一些结果比较:基线方法包括恒速运动、最近邻检索和LSTM编码器/解码器。最好的方法是Argoverse预测挑战赛的冠军 (https://evalai.cloudcv.org/web/challenges/challenge-page/454/leaderboard/1279

8.jpg

欢迎大家留言,与作者一起交流!

关于作者:

黄浴博士,现担任AI Startup公司技术副总裁,是全球计算机视觉、人工智能与自动驾驶领域的知名科学家。



收藏
点赞
2000