特斯拉自动驾驶新专利：从实景中快速获取时间维度的真值数据方法（1）

来源：公众号“燃云汽车”（转载自“车右智能”）

2020-08-18

3109

Tesla的全新专利公布，全名称为，“Generating ground truthfor machine learning from time series elements”，大概的中文意思是，为机器学习所生成的时间序列基准数据。虽然拗口，但是基本上望文生义，意思是：Tesla创立了一种系统的方法，可以为Tesla的自动驾驶系统及其背后的深度学习网络，建立一种以时间为维度的真实基准数据。

下图为系统框架：

系统框架定义还是一目了然的，上图中：

100 – 代表深度学习系统整体；

101 – 传感器阵列；

103 – 图型预处理网络；

105 – 自动驾驶的核心深度学习网络；

107 – AI处理器；

109 – 车辆控制模块/接口；

111 – 学习系统整体的对外网络接口；

系统整体的工作流程基本上就是按照网络功能框图来排序的，如下：101传感器捕捉外部信息（对于Tesla来说基本是以视觉信号为主），并将捕捉到的信息传递给103的图型预处理网络；处理之后的结构化数据（有时候也叫做元数据Meta）将被送到105中的深度学习网络进行甄别和驾驶动作形成。这里105的深度学习网络是跑在107的AI处理器之上的。如果针对Tesla的Autopilot系统，我们知道，107实际对应着FSD的硬件HW3.0；经过深度学习网络的判别之后，其输出将直接通过109的车辆控制模块去驱动车辆完成驾驶动作，包括加减速、或者转向等等。

再往后的111网络接口模块中，逻辑上有些变化。111模块中的网络接口，会将传感器数据（101/103）的数据，和109模块的输出，按照触发条件，送到指定的云端服务器进行相关处理（比如模型训练）。

另外需要注意的是，专利中指出，上图中不是包含所有场景下的所有模块的。在一些情况下，“后处理模块”/Post-processingcomponent可能会涉及增加处理从105模块到109模块的数据流向。按照小编的理解，这里的处理逻辑非常类似Mobileye的RSS(Responsibility Sensitive Safety)责任敏感安全模型。RSS模型的创立，是以期通过数学的方式来界定“安全状态”。在“安全状态”中，无论其他车辆做出任何反应，自动驾驶汽车都不可能引发事故。【关于RSS的具体资料，诸位可以通过互联网资料来了解，这里就不赘述了。】以下部分我们将对每个在专利中出现的编号模块做个简单介绍。

101传感器阵列模块中，Tesla的描述涵盖了各种各样的传感器种类、和安装位置。从种类上说，包含：高动态范围的视觉摄像头、毫米波雷达、超声波雷达、Lidar、轮速计、位置传感器（GPS）和惯性位姿器件等。【可见Tesla并没有像Elon Musk一样完全排除对于Lidar器件合规上车的期待。】另，专利中特意指出，101模块中所涉及的传感器种类和数量，不是仅限于安装在主车位置上，安装在邻居车辆甚至道路旁等环境中的传感器，都可以被主车上的神经网络所利用。专利这么写，也能看得出Tesla本身虽然坚持在现阶段走“视觉为基础的单车智能”的技术道路，但实际上，对于Lidar、对于车联网V2X的各种产品和应用，都是持开放态度的。我们从中也可以学习到，自动驾驶的逐步演进之路应该是从单车演进到车路协同，而不是反之。

在专利中，还提到了视觉数据的感知和捕捉也可以是和其他传感器配合的情况下获取的。举例说明，如果需要捕捉一个具体时间段内的视觉数据，可以不仅仅是捕捉单纯的视觉传感器输出数据（连续的静止图像/动态video），还可以附加车载的轮速计，在规定时间内的输出，一同被记录从而形成结构化的视觉数据；再比如，也可以是指定时间段内的视觉数据和GPS的位置数据联合捕捉和记录。类似多维度的数据记录，我们认为在提供给后台或者传说中的Dojo训练系统时，将会更有针对性，在数据记录的同时，完成了数据记录和标注，非常有效率。

模块103是图型预处理网络。根据之前的各种信息表明（包括Tesla之前一个关于“Data-Pipeline”专利的说明），对于视觉图像的各种预处理手段不属于传统意义上的计算机视觉处理方法，而是采用了深度学习的方法。我们这里不做具体分析，专利文件中也没给出具体的实施方法，但这个并不影响我们分析Tesla在视觉信息的预处理模块中要实现的技术目标。103图像预处理模块的硬件载体可能是专用的GPU、CPU，也可以是专用的其他芯片结构，甚至可能是模块107中的专用AI芯片（FSD HW3.0）。模块103的图型预处理工作包含对于图形文件的各种常规数字处理，例如对于前向Fisheye camera视觉信号的变形恢复处理，降噪处理、去模糊处理、白平衡、各种弱光和强光条件下图像的补足和恢复等，也是模块103的职责。这些预处理动作将会大幅度提高后续深度学习网络（模块105）的效率和准确率。

模块105和107是紧耦合关系，是软件和硬件载体的关系。

模块107AI处理器结构承载模块105的软件实现，是基础。AI处理器的本质，在这里是通过CNN网络对传感器提供的数据进行推理和分析。要实现这个目标，首先107AI处理器需要针对主流的传感器数据进行深度和宽度的适配，然后是对于数据的卷积、点积、向量化和全连接的处理。建立在107模块之上的105深度学习网络模块，则具体执行深度学习过程，并给出处理结果。需要注意的是，专利中并没有直接说明这个架构是否是只适用于“端到端/End-to-End”网络架构，从这个极其简化的系统框图上，并不能做出这个判断。

模块105中，深度学习网络需要执行的学习过程和其任务相关。如果是端到端/End-to-End网络结构，则其学习过程只需要完成从环境到驾驶动作输出的映射即可。但专利中给出的模块105输出当中，还包含，三维的各种道路标识的识别结果输出，邻道车辆的Cut-in动作判断输出，车道线的延展趋势输出等等。同时，深度学习网络的中间过程中，还包括对于驾驶环境的各种分类结果输出，例如：是否雨天驾驶、道路是否湿滑、下雪、泥泞、是否有高密度车流量、是高速环境还是城区驾驶环境、是否处于学校区域等等。以上这些分析有些可以从传感器数据直接获取语义结果，有些则需要在深度学习网路中进行学习后再输出，从而提供深度网络的决策依据。

模块109属于车辆驾驶的执行机构，负责根据深度学习网络的输出，来调整车辆的姿态和位置，还包含车辆灯光和喇叭的管理。除此之外，模块109还可以形成和传感器模块的闭环。具体的方式是，模块109可以根据深度学习网络的输出，调整车辆的传感器，使其符合深度学习网络（105/107）的需求。例如：调整传感器的覆盖角度或者捕获外界信息的分辨率，也可以是通知模块103预处理模块，对于传感器的数据进行特别的处理，以满足下一个周期的深度网络学习的需求等等。模块109的硬件基础可以是专用的ASIC芯片，和PLD可编程逻辑控制器，或者其它合适的硬件基础。

模块111属于网络接口模块，通过标准的Wireless管道和外界（尤其是云端）进行数据沟通。这种Wireless技术可以是WiFi，也可以是4/5G网络技术。针对整体的软件架构（从101-109模块），都可以从111模块获取相应的更新数据，更新数据可以是参数更新，也可以是操作系统更新和功能更新。例如，对于传感器101模块的firmware固件更新；对于103预处理网络的参数更新等等。除此之外，111模块最重要的功能是上报合格的、指定的（或者说是被触发的）高质量训练数据到云端，以支撑云端系统对于未来更高性能的网络模型的训练机制。

截至当前，我们介绍了整个专利涉及的系统框架的技术描述。可以看出，其本质就是Autopilot系统框架。未来我们会继续介绍其基本的（专利）工作原理。

声明：本文内容及图片由BC-AUTO转载至网络，信息来源于公众号车右智能。

上一篇：软件定义汽车？软件驱动汽车（Software Driven Vehicle）？！下一篇：功能安全之潜在失效处理例

用户评论
共0条评论

2000

同类文章推荐

特斯拉自动驾驶新专利：从实景中快速获取时间维度的真值数据方法（1）

合作伙伴