作者 | Yu Huang
来源 | 自动驾驶之心
自DARPA举办2004/2005年乡村无人车大赛和2007年城市自动驾驶挑战赛以来,自动驾驶一直是人工智能应用最活跃的领域之一。本文概述了自动驾驶领域相关技术和未解决难题。我们参与调研的自动驾驶领域主要包括:感知、建图和定位、预测、规划和控制、仿真、V2X、安全等。与众不同的是,我们阐述了如何在数据闭环框架下解决上述问题,其中,"数据闭环"是解决自动驾驶"长尾问题"的有效框架。
原文链接:https://arxiv.org/abs/2306.13302
10多年来,自动驾驶一直是一个热门话题。2004年和2005年,DARPA举办了乡村无人车大赛。2007年,DARPA还举办了城市环境中的自动驾驶大赛。之后,斯坦福大学的S.Thrun教授(2005年冠军和2007年亚军)加入谷歌,建立了Google X和自动驾驶团队。
最近有三篇关于自动驾驶的调查报告[3,9,14]。自动驾驶作为机器学习和计算机视觉等人工智能领域最具挑战性的应用之一,已经被证明是一个"长尾"问题,即少量类别占据了绝大多少样本,而大量的类别仅有少量的样本。在本文中,我们研究了如何在数据闭环中研发自动驾驶技术。我们的综述工作涵盖了自动驾驶技术主要领域,包括:感知、建图和定位、预测、规划和控制、仿真、V2X和安全等。
最后,我们将讨论新兴大模型对自动驾驶行业的影响。
目前存在的一些关于自动驾驶技术的综述文章,包含整个系统/平台到单个模块/功能[1-2,4-8,10-13,15-33]。在本节中,我们简要介绍图1所示的基本自动驾驶功能和模块,硬件和软件体系结构,包括:感知、预测、定位和建图、规划、控制、安全、仿真以及V2X等。
美国运输部和国家公路交通安全管理局(NHTSA)采用了国际标准化组织汽车工程师学会(SAE)制定的自动化水平标准,该标准将自动驾驶车辆自动化分为6个等级,即从0级(人工驾驶员完全控制)到5级(车辆完全自主驾驶)。
在1级中,驾驶员和自动化系统共同控制车辆。在2级中,自动化系统完全控制车辆,但驾驶员必须时刻准备好立即干预。在3级中,驾驶员可以免于驾驶任务,车辆将要求立即响应,因此驾驶员仍须随时准备干预。在4级中,与3级相同,但不需要驾驶员保持注意力来确保安全,驾驶员可以安全地睡觉或离开驾驶员座位。
自动驾驶车辆测试平台应该能够实现实时通信,例如使用控制器区域网络(CAN)总线和以太网,可以准确地实现车辆的方向、油门和制动器的实时控制。进行车辆传感器合理配置,以满足环境感知的可靠性要求,并最大限度降低生产成本。
自动驾驶车辆的感知可以分为三大类:本体感知、定位和环境感知。本体感知:通过车辆的传感器测量当前车辆状态,即横摆速率、速度、偏航角等。本体感知的传感器包括行程计、惯性测量单元(IMU)、陀螺仪和CAN总线。定位:使用外部传感器(如全球定位系统(GPS))或IMU读数的里程计来确定车辆的全局和局部位置。环境感知:使用外部感测器来感知车道标线、道路坡度、交通信号牌、天气条件和障碍物等。
本体感知传感器和环境感知传感器分为主动传感器和被动传感器。主动传感器以电磁波的形式发出能量,并测量返回时间以确定距离等参数,例如声纳、雷达和光探测与测距(LiDAR)传感器。被动传感器不发出信号,而是感知环境中已经存在的电磁波(例如基于光的和红外相机)。
另一个重要方面是计算平台,它支持传感器数据处理以识别周围环境,并通过密集优化算法、计算机视觉算法和机器学习算法来实时控制车辆。目前存在不同的计算平台,如CPU、GPU、ASIC和FPGA等。为了支持基于AI的自动驾驶,也需要云服务器来提供大数据服务,例如进行大规模机器学习和大容量数据存储(例如高清地图)。为了实现车路协同,还需要处理车端信息的路侧通信设备和计算设备。图2显示了一辆自动驾驶汽车中的传感器配置示例(来自公开数据集NuScene)。它安装了LiDAR、相机、雷达、GPS和IMU等。
图 2 自动驾驶传感器硬件示例
如果需要收集多模态传感器数据,还需要进行传感器校准,其中涉及确定每个传感器数据之间的坐标系统关系,例如相机校准、相机-LiDAR校准、LiDAR-IMU校准以及相机-雷达校准。此外,传感器之间需要使用统一的时钟(例如GNSS),然后使用某个信号触发传感器的操作。例如,LiDAR的传输信号可以触发相机的曝光时间,实现时间同步。
自动驾驶系统的软件平台分为4个层次,从底层到顶层分别为:实时操作系统(RTOS)、中间件、功能软件和应用软件。软件体系结构分为:模块化结构和端到端结构。
模块化系统由多个构件组成,连接感知输入到执行器输出。模块化自动驾驶系统(ADS)的关键功能通常分为:感知、定位和绘图、预测、规划和决策以及车辆控制等。
端到端系统直接从传感器输入生成控制信号。控制信号主要来自转向轮和油门(加速器),用于加速/减速(甚至停止)和左/右转弯。端到端驾驶主要包括三种方式:直接监督深度学习、神经进化和深度强化学习。
图 3 显示了端到端和模块化系统的体系结构
"感知"系统通过传感器收集信息并从环境中提取有效信息。它能对驾驶环境进行上下文理解,如检测、跟踪和分割障碍物、道路标志/标线和空旷的可驾驶区域。根据所采用的传感器,环境感知任务主要通过使用LiDAR、相机、雷达或多传感器融合来完成。在最高层次上,感知方法可以分为三类:中介感知、行为反射感知和直接感知。中介感知需要绘制车辆、行人、树木、车道标记等周围环境的详细地图。行为反射感知将传感器数据(图像、点云、GPS位置)直接映射到驾驶机动操作。直接感知将行为反射感知与中介感知方法的度量获取相结合。
"建图"是指建立包含道路、车道、标志/标线和交通规则等信息的地图。一般来说,有两种主要类型的地图:平面地图,指依赖地理信息系统(GIS)上的图层或平面绘制的地图;点云地图,指基于GIS中的数据点集的地图。高清(HD)地图包含自动驾驶所需的有用的静态元素,如车道、建筑、交通灯和车道标记等。HD地图与车辆定位功能紧密相连,并与车辆传感器(如LiDAR、雷达和相机)保持交互,从而构建自动驾驶系统的感知模块。
"定位"确定车辆相对于驾驶环境的位置。全球导航卫星系统(GNSS)如GPS、GLONASS、北斗和伽利略等,他们使用不少于四颗卫星并以相对较低的成本估计车辆的全球位置。全球导航卫星系统可以使用差分模式来提高GNSS的精度。GNSS通常与IMU集成来设计性价比高的车辆定位系统。IMU用于估计车辆相与其初始位置的相对位置,这种方法称为里程计。由于HD地图已经用于自动驾驶,基于HD地图的定位也被考虑在内。最近,出现了许多自主的里程计方法和同时定位与建图方法(SLAM)。SLAM技术通常应用一个里程计算法来获得当前姿态信息,然后将其送到一个全局地图优化算法中。基于图像的计算机视觉算法包括:特征提取和匹配、相机运动估计、三维重建(三角测量)和优化(约束调整)等,由于这些算法的缺点,目前视觉SLAM仍然是一个具有挑战性的方向。
"预测"是指根据障碍物的运动学、行为和长短期历史估计其轨迹。要完全解决轨迹预测问题,社会智能化非常重要。因为智能化的社会环境中,各种可能性被约束,无限的搜索空间也被约束。为了建立社会互动模型,我们需要了解智能体及其周围环境的动态,以预测其未来的行为,防止发生任何碰撞。
"规划"是生成一条避障的参考路径或轨迹,使车辆在避开障碍物的同时到达目的地。规划可以分为不同的等级:路线(任务)规划、行为规划和运动规划。路径规划是指在有向图中寻找点到点的最短路径,传统方法分为目标导向技术、基于分离器的技术、分层技术和有界跳技术四类。行为规划决定了局部驾驶任务,该任务使车辆向目的地前进并遵守交通规则,传统上由有限状态机(FSM)定义。最近正在研究模仿学习和强化学习,以生成车辆所需的行为。运动规划在环境中选择一条连续路径,以完成局部驱动任务,例如RRT(快速探索随机树)和Lattice规划。
"控制"是通过选择适当的执行器输入来执行规划的动作。通常控制可分为横向控制和纵向控制。大部分情况下,可以将控制解耦为两阶段,即轨迹/路径生成阶段和跟踪阶段,例如纯跟踪法。然而,它也可以同时生成轨迹/路径并进行跟踪。
"V2X(车联网)"是一种能够使车辆能够与周围的车流和环境进行通信的车辆技术系统,包括:车辆间通信(V2V)和车辆基础设施通信(V2I)。从行人的移动设备到交通灯上的固定传感器,车辆可以通过V2X访问大量数据。通过积累来自其他车辆的详细信息,将克服单车智能的感知范围、盲区和规划不足等缺点。V2X有助于提高安全性和交通效率,但车辆之间和车路之间的协同仍然具有挑战性。
值得一提的是,ISO(国际标准化组织)26262标准适用于自动驾驶车辆,它定义了一套全面的要求,以确保车辆软件开发的"安全"。该标准建议使用危险分析和风险评估(HARA)方法来识别危险事件,并确定了减轻危险的安全目标。车辆安全完整性级别(ASIL)是ISO 26262中定义的车辆系统风险分类方案。AI系统带来了更多安全问题,这些问题由一个新建立的标准ISO/PAS 21448 SOTIF(预期功能的安全性)来解决。
除了模块化或端到端系统,ADS开发中还有一个重要的"仿真"平台。由于在道路上驾驶实验车辆的成本很高,而且在现有的人类驾驶的道路网络上进行实验,会受到限制,因此仿真环境可以实现在实际道路测试之前开发某些算法/模块。仿真系统由以下核心部分组成:传感器模型(相机、雷达、LiDAR和声纳)、车辆动力学和运动学、行人、驾车者和骑车者的形状和运动学模型、路网和交通网络、三维虚拟环境(城市和乡村场景)以及驾驶行为模型(年龄、文化、种族等)。仿真平台存在的关键问题是"sim2real"和"real2sim",前者是指如何模拟真实场景,后者是指如何以数字孪生的方式进行情景再现。
感知周围环境并提取信息是自动驾驶的关键任务。使用不同传感模式的各种任务都属于感知范畴[5-6,25,29,32,36]。基于计算机视觉技术,相机成为使用最广泛的传感器,3D视觉则成为一个强大的替代方案/补充。
最近,BEV(鸟瞰视角)感知[25,29]成为自动驾驶中最活跃的感知方向之一,特别是在基于视觉的系统中。主要原因有以下两点:首先,BEV对驾驶场景的表示可以直接由下游模块应用,如轨迹预测和运动规划等。其次,BEV提供了一种可解释的方式来融合来自不同视角、模式、时间序列和智能体的信息。例如,其他常用传感器,如LiDAR和Radar在3D空间中获取的数据,可以轻松转换到BEV,并直接与相机直接进行传感器融合。
在调研报告[25]中,BEV工作可以分为以下几个类别,如图4所示。
图 4 BEV工作的类别
首先,根据视图变换方式可以分为基于几何的变换和基于网络的变换。基于几何的变换充分利用相机的物理原理进行视图转换,该方法可进一步分为经典的基于同图的方法(即逆投影映射)和基于深度的方法,通过显式或隐式深度估计可以将二维特征提升至三维特征。
根据深度信息的利用方式,我们可以将基于深度的方法分为两类:基于点的方法和基于体素的方法;基于点的方法直接利用深度估计将像素转换为点云,散布在连续的三维空间中;而基于体素的方法通常直接利用深度引导将二维特征(而不是点)散布在相应的三维位置上。
基于网络的方法可以采用自下而上的策略,即神经网络像视图投影仪一样发挥作用;另一种方法可以采用自上而下的策略,即直接构建BEV查询,并通过交叉注意力机制(基于Transformer)在前视图像上搜索相应的特征,提出稀疏、密集或混合查询以匹配不同的下游任务。
图 5 BEV方案
迄今为止,BEV网络已被用于物体检测、语义分割、在线映射、传感器融合和轨迹预测等。如研究论文[29]图5所示,BEV融合算法有两种典型的过程设计。两者主要区别在于2D到3D的转换和融合模块。在透视图方案(a)中,首先将不同算法的结果转换到三维空间,然后使用先验规则或人工方法进行融合。BEV方案(b)首先将透视图特征转换为BEV,然后融合特征以获得最终预测结果,从而保留大部分原始信息并避免人工设计。
继BEV之后,三维占位网络逐渐成为自动驾驶感知领域的前沿技术[32]。BEV可以简化驾驶场景的纵向几何,而三维体素能够以较低的分辨率表示完整的几何,包括道路地面和障碍物体积,这需要较高的计算成本。基于相机的方法正在三维占位网络中兴起。图像具有天然的像素密度,但是需要深度信息才能反向投射到三维占位中。注:对于LiDAR数据,占位网络实际上实现了语义场景补全(SSC)任务。
在图6中,我们解释了BEV和占用网络的三种模型体系结构,仅针对相机输入,仅针对LiDAR输入以及两者结合输入。
图 6 BEV和占位网络实例
仅多相机输入如图6(a)所示,多相机图像首先通过"Backbone"模块编码,如EfficientNetor/RegNet加上FPN/Bi-FPN,然后分为两路;一方面,图像特征进入"view transform"模块,通过深度分布或Transformer架构构建BEV特征,然后分别进入两个不同的头部:一个头通过"map ele detector"模块输出地图元素的矢量化表示(其结构类似于基于Transformer的DETR模型,也有一个可变形的关注模块,并输出关键点的位置和它们所属元素的ID)和"polyline generat"模块(它也是一个基于Transformer结构的模型,输入这些嵌入的关键点、多段线分布模型可以生成多段线的顶点并获得地图元素的几何表示),另一个头通过"BEV obj Detector"模块获得obj BEV边界框,它可以使用Transformer架构或类似的PointPillar架构来实现;另一方面,在"2D-3D transform"模块中,基于深度分布将二维特征编码投影到三维坐标,其中保留高度信息,得到的相机体素特征进入"3D decod."模块得到多尺度体素特征,然后进入"occupancy"模块进行类预测,生成体素语义分割。
仅LiDAR输入如图6(b)所示,部分模块与图6(a)相同。首先,在"Voxelization"模块中,将点云划分为间距均匀的体素网格,生成三维点与体素的多对一映射;然后进入"FeatEncod"模块,将体素网格转换为点云特征图(使用PointNet或PointPillar);一方面,在"view transform"模块中,将特征图投影到BEV上,在BEV空间中结合特征聚合器和特征编码器,然后进行BEV解码,分为两个头:一个头部的工作原理如图6(a)所示。另一方面,三维点云特征图可以直接进入"3D Decod"模块,通过三维解卷积获得多尺度体素特征,然后在"Occup"模块中进行上采样和类预测,生成体素语义分割。
相机和LiDAR同时输入如图6(c)所示,大多数模块与图6(a)和6(b)相同,除了"Feat concat"模块将连接来自LiDAR路径和相机路径的特征。
注:对于基于相机的占位网络,值得一提的是计算机图形学和计算机视觉领域的一种新范例--神经辐射场(NeRF)[47]。NeRF不是直接还原整个三维场景的几何图形,而是生成一种被称为"辐射场"的体积表示,它能够为相关三维空间中的每一点创建颜色和密度。
为实现安全高效的导航,自动驾驶汽车应考虑周围其他智能体的未来轨迹。轨迹预测最近受到了广泛关注,这是一项极具挑战性的任务,它根据场景中所有运动的智能体的当前和过去状态预测其未来状态。
预测任务可分为两部分。第一部分是作为分类任务的"意图",它通常可被视为一个监督学习问题,我们需要标注智能体可能的意图。第二部分是需要预测智能体在未来N个帧中的一组可能位置的"轨迹",这个"轨迹"被称为"路径点"(way-points)。这建立了它们与其他智能体以及道路的交互。
文献[10,12,34]进行了一些预测相关的研究。传统上,我们将行为预测模型分为基于物理的模型、基于机动的模型和基于交互意识的模型。基于物理的模型由动态方程构成,为不同类别的智能体建立人工设计运动模型。基于机动的模型是基于智能体的预期运动类型的实际模型。交互感知模型通常是基于ML的系统,能够对场景中的每一个智能体进行配对推理,并为所有动态智能体生成交互感知预测。
图 7 L4创业公司Cruise.AI的预测模型
图7给出了L4自动驾驶创业公司Cruise.AI[36]设计的预测模型图。显然,它展示了一个编码器-解码器结构。在编码器中,有一个"场景编码器"来处理环境上下文(地图),类似于谷歌Waymo的ChauffeurNet(光栅化图像作为输入)或VectorNet(矢量化输入)架构一样;有一个"对象历史编码器"来处理智能体历史数据(位置);还有一个基于注意力图网络来捕捉智能体之间的联合交互。为了处理动态场景的变化,他们将专家混合(MoE)编码到门控网络中。例如,在停车场有不同的行为,如倒车驶出、驶出和K形转弯、平行停车第二次尝试、倒车和驶出、倒车平行停车和垂直驶出等。
在图7所示的解码器中,有一个两阶段的结构,即由一个简单的回归器生成初始轨迹,然后由具有"多模态不确定性"估计的长期预测器进行完善。为了增强轨迹预测器,还有一些辅助任务需要训练,如"联合轨迹不确定性"估计和"交互检测和不确定性"估计,以及"占位预测"。
该轨迹预测器的一个大创新是它的"自监督"机制。基于"后见之明"的观察,他们提供"机动自动标注器"和"交互自动标注器"为预测器模型生成大量训练数据。
地图,特别是HD地图,是自动驾驶的先验知识。建图技术可以分类为在线建图和离线建图[24]。在离线建图中,我们在中心位置收集所有数据,这些数据采集来自安装有GNSS、IMU、LiDAR和相机的车辆。另一方面,在线建图使用轻量级模块在自动驾驶车辆上进行。
所有有前途的建图技术目前都使用LiDAR作为主要传感器,特别是用于HD地图。另一方面,也有一些方法只使用视觉传感器构建地图,如Mobileye的REM,或称为roadbook,它基于视觉SLAM和深度学习[35]。
创建HD地图通常涉及采集高质量的点云、对准同一场景的多个点云、标记地图元素以及频繁更新地图。这个过程需要大量人力和时间,限制了其可扩展性。BEV感知[25,29]具有在线学习地图的潜力,它根据局部传感器观察动态地构建高清地图,这可能是一种可以为自动驾驶汽车提供语义和先验几何信息的更具可扩展性的方式,。
在这里,我们介绍在线建图的最新工作,称为MachMap[45],它将高清地图构建公式化为BEV空间中的点检测范式,以端到端的方式。基于地图紧凑方案,它遵循基于查询的范式,集成了CNN基础架构(如InternImage),基于时间的实例解码器和点掩膜耦合头。
图 8 MachMap框架
MachMap的框架如图8所示。它通过图像骨干和周围图像的颈部从每个视图生成2D特征。然后,可变形注意力用于聚合不同视图之间的3D特征,并沿z轴对其进行平均。在时间融合模块中,新的BEV特征与BEV特征的隐藏状态进行融合。
利用实例级可变形注意力机制执行实例解码器可以完善内容和点特征并获得最终结果。
自动驾驶车辆的精准定位可对下游任务(如行为规划)产生巨大的影响。虽然使用传统的动态传感器(如IMU和GPS)可以获得可接受的结果,但基于视觉的传感器(LiDAR或相机)显然更适合这项任务,因为使用这类传感器获得的定位结果同时依赖于车辆本身及其周围的环境。虽然这两种传感器都具有良好的定位性能,但它们也存在一些局限性[27]。
多年来,研究者一直在研究自动驾驶汽车定位,这大多数情况下是与建图一起进行的,这带来了两种不同的路线:第一种是SLAM,即定位和建图同时循环运行;第二种是将定位和建图分开,直接离线构建地图。
最近,深度学习为SLAM带来了新的数据驱动的方法,尤其是更具挑战性的视觉SLAM,这在论文[28]中有所提及。这里我们讨论一个基于Transformer定位方法的例子[48],其中获取姿势是通过所提出的POse Estimator Transformer(POET)模块使用注意机制与从跨模型特征中检索到的相关信息交互来更新的。定位架构如图9所示。
图 9 使用Transformers进行地图定位
如图9所示,该网络以RGB图像和LiDAR地图上给定初始姿态的相邻点云的重投影深度图像作为输入。然后,它们分别通过对应的编码器进行处理以获得高维特征。之后,进行图像特征和LiDAR特征融合,获得融合特征。之后,把位置信息添加到融合特征后,将融合特征输入到所提出的POET模块中。
POET将融合特征作为输入并初始化姿势信息。经过与融合特征相关信息的迭代更新,姿势信息可以被优化为图像与初始姿态之间高精度的相对姿态。
这里应用了DETR解码器来更新姿势信息。解码器由交替堆叠的自注意层和交叉注意层组成。自注意力在姿势信息内计算,而交叉注意力在姿势信息和处理过的代价量之间计算。
大多数规划方法,尤其是行为规划,是基于规则的[1,2,7-8],这为数据驱动系统的探索和升级带来了巨大的负担。基于规则的规划框架负责为车辆的低级控制器要跟踪的轨迹点序列。基于规则的规划框架的优点是具有可解释性,当出现故障或意外的系统行为时,可以识别有缺陷的模块。其局限性在于需要许多手动启发式功能。
基于学习的规划方法已成为自动驾驶研究中的一种趋势[15,18,33]。驾驶模型可以通过仿真学习获取知识,并通过强化学习探索驾驶策略。与基于规则的方法相比,基于学习的方法可以更有效地处理车辆与环境的交互。尽管其概念吸引人,但当模型行为不当时,很难甚至不可能找出原因。
仿真学习(IL)是指基于专家轨迹的智能体学习策略。每个专家轨迹都包含一系列状态和动作,并且所有"状态-动作"对都被提取来构建数据集。IL的具体目标是评估状态与动作之间最适合的映射,以便智能体尽可能接近专家轨迹。
为了缓解标注数据的负担,一些科学家已经将强化学习(RL)算法应用于行为规划或决策制定。智能体可以通过与环境交互获得一些奖励。RL的目标是通过试误来优化累积数值奖励。通过与环境持续交互,智能体逐步获得关于达到目标端点的最佳策略的知识。在RL中从零开始训练策略通常很耗时且具有挑战性。将RL与其他方法(如IL和课程学习)相结合可能是一个可行的解决方案。
近年来,深度学习(DL)技术通过深度神经网络(DNN)的奇妙特性:函数逼近和表征学习,为行为规划问题提供了强大的解决方案。DL技术使RL/IL能够扩展到以前难以解决的问题(如高维状态空间)。
这里介绍一个两阶段占位预测引导的神经规划器(OPGP)[46],它将未来占位和运动规划的联合预测与预测引导相结合,如图10所示。
图 10 两阶段式OPGP
在OPGP的第一阶段,在基于Transformer骨干上建立了一个集成网络。视觉特征是历史占用栅格和栅格化BEV路线图的组合,代表特定场景下交通参与者的空间-时间状态。矢量化上下文最初关注以自动驾驶车辆为中心的参与者的动态上下文。考虑到视觉特征和矢量化上下文的交互,同时输出所有类型交通参与者的占位预测。同时,编码后的场景特征和占位情况在规划头中共享并实现有条件地查询,规划头进行多模态运动规划。
OPGP第二阶段的重点是以一种优化可行的方式为细化建模来自占用率预测的明确指导。更具体地说,他们在Frenet空间(这是一个由切线和曲率决定的移动右旋坐标系)中构建了一个优化过程,用于使用变换后的占用率预测进行规划细化。
与自动驾驶中的其他模块(如感知和规划)相比,车辆控制相对成熟,经典控制理论发挥着主要作用[20,21]。然而,深度学习方法不仅能在各种非线性控制问题上获得优异的性能,还能将先前学习到的规则外推到新的场景中,因此在自动驾驶控制领域的应用前景十分广阔。因此,深度学习在自动驾驶控制中的应用正变得越来越流行[13]。
传感器的配置多种多样;有些人仅通过视觉来控制车辆,有些人则利用测距传感器(LiDAR或雷达),还有些人利用多传感器。在控制目标方面也存在差异,有些人将系统设计为一个高级控制器提供目标,然后通过低级控制器实现目标,这种方式通常使用经典控制技术。另一些则旨在端到端学习的自动驾驶,将观测结果直接映射到低级车辆控制界面命令。
车辆控制可以分为横向控制和纵向控制。横向控制系统旨在控制车辆在车道上的位置,并实现其他横向动作,如变道和回避碰撞动作。在深度学习领域,这通常是通过使用车载相机的图像/LiDAR的点云捕捉环境信息作为神经网络的输入来实现的。
在本节中,我们将介绍一种带有语义视觉地图和相机的端到端(E2E)驾驶模型[16]。仿真人类驾驶是通过对抗学习来实现的,其中一个生成器模仿人类驾驶员,一个识别器使其像人类驾驶员。
训练数据(名称为"Drive360数据集")由前置相机和渲染的TomTom路线规划模块采集。然后采用HERE地图数据对数据集进行离线增强,以提供同步的语义地图信息。
图 11 E2E驾驶模式框架
已完成
数据加载中