黄教主烤箱出品的核弹级AI平台:英伟达安培架构GPU A100

来源:公众号“汽车电子与软件”
2020-06-03
3021
导语
近由于工作需要,整理了一下Tesla、NVIDIA、WAYMO等自动驾驶领头羊的一些资料,主要是关于域控制器、硬件架构、系统架构方面的梳理。特斯拉的技术能让大众汽车甘拜下风,NVIDIA的AI计算平台绝对是行业首屈一指,学习学习,站在巨人的肩旁上,才能看得远不是。一个不正经的工程师,看的不远,但是跟风而行不掉队,还是可以滴!


一、概述


英伟达(NVIDIA)GTC 2020成功登陆黄教主家的厨房,这次烤箱出品的大餐,第八代架构Ampere(安培)、GPU A100、以及2000TOPS算力等,值得行业内好好的饕餮一顿了。
在这次别开生面的厨房发布会上,英伟达CEO黄仁勋发布了英伟达新一代GPU架构Ampere(安培),以及基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100,并且炫了一把英伟达的小伙伴。
此次GTC 2020的核弹级重磅产品当仁不让是安培架构GPU A100,基于安培架构的第一款 GPU A100绝对是目前全球最大的7nm芯片,540 亿个晶体管,3D 堆叠技术,加上高达 826 平方毫米的芯片面积,同时支持 TF32 和 BF16 格式,拥有 438 个第三代 Tensor Core,支持虚拟成为 77 个 GPU 来执行不同的任务。算力达到2000TOPS,相比Volta架构提升了高达20倍的性能,可以同时满足AI训练和推理的需求。
GPU A100算力的提升带来的是功耗的正比升值,达到了800W。这是一个很恐怖的功耗,如果满负载使用在电动汽车上,将对续航造成非常大的影响。直白点来说,如果NEDC工况续航是600公里,满负载使用GPU A100的情况下,续航将会直接腰斩,甚至于可能……大概率……也许只剩三分之一不到,其余的电能量都被这个恐怖的能耗怪兽当点心了。So,还香吗?
而黄教主放出的另一个惊雷,由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。
对于这样算力很惊喜,功耗很刺激的计算平台,是否能够真的用到量产车上,本人表示严重怀疑。未来应用预计是智能交通中的服务器型计算中心,或者车路协同V2X的路端交互平台。毕竟再好的电池也禁不住这么造啊!

二、重点说说这个核弹——安培架构


记得去年12月苏州GTC大会上,黄教主发布的面向ADAS和自动驾驶的新一代SOC——Orin,Orin是用来搭载下一代GPU的,现在看来就是这个安培。
黄仁勋宣布安培(Ampere)架构将用于制造自动驾驶芯片。英伟达旗下的Xavier和Orin两个自动驾驶芯片的性能得到大幅升级。由于使用了安培GPU,英伟达的Xavier的算力提升至200TOPS,DRIVE Pegasus Robotaxi自动驾驶平台使用两颗Orin Soc和两颗安培GPU,性能可以达到2000TOPS。此外,英伟达还发布了供ADAS计算的Orin SoC,可以直接装在车辆后视镜内,算力达到10TOPS,功耗仅有5W。
安培(Ampere)是英伟达继2018发布的图灵(Turing)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。
在此之前,英伟达已经研发了以科学发展史上的伟人来命名的多代 GPU 架构。
特斯拉(Tesla)、费米(Fermi)、开普勒(Kepler)、麦克斯维尔(Maxwell)、帕斯卡(Pascal)、伏特(Volta)以及图灵(Turing)。
不过最新爆料称,继Ampere之后的新一代架构以美国计算机科学家Grace Hopper命名的“霍珀”。
黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100将在提高吞吐量的同时,降低数据中心的成本。”
根据黄教主的发布会信息,基于第八代安培架构的首款GPU A100,具有如下五大关键特性:
  • 集成540亿个晶体管,也让安培架构GPU A100成为了全球最大的7nm芯片。

  • 引入TF32的第三代 Tensor Core核心,这是目前英伟达广泛采用的 Tensor Core核心,相比前代更加灵活、快速且易于使用。

  • 全新的GPU-MG技术,可将单个A100GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力。

  • 集成第三代 NVIDIA NVLInk技术,使 GPU之间高速连接速度翻倍,多颗 A100 可组成一个巨型 GPU,性能大幅扩展。

  • 结构化稀疏加速技术,利用AI数学固有的稀疏性,性能提升了一倍。

具有TF32的第三代Tensor Core核心,加入了专为AI开发的全新TF32,在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,TensorCore核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。
凭借最新的技术应用,英伟达A100能够成为了AI训练和推理以及科学模拟、高性能数据分析等各种高要求工作负载的理想选择。
除了算力方面的高性能,灵活性和扩展性是A100更重要的优势所在。
首先,安培架构的A100既可以做训练也可以做推理。英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。
其次,A100采用的GPU-MG计算技术能够为每项工作分配适量的计算能力,每个A100 GPU可以分割为多达七个独立模块来执行任务。
第三,第三代NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。
英伟达曾表示,从 Volta 开始,GPU 将对训练、推理兼顾。三年前黄教主吹过的牛,已经通过三年后最新推出的DGX A100实现了。
DGX A100单节点性能达创纪录的5 Petaflops
DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集,以及速度可达200Gbps MeLLanox HDR互连。

三、通过2000TOPS算力看英伟达自动驾驶平台布局


通过黄教主的介绍,不难得出:Orin+安培架构 GPU=实现 2000TOPS 算力!
这意味着随着安培的推出,再一次给英伟达的自动驾驶平台(NVIDIA Drive)带来了性能的飞跃。
英伟达此前已经推出了多代 Drive AGX 自动驾驶平台以及 SoC,包括 Drive AGX Xavier、Drive AGX Pegasus 以及 Drive AGX Orin。
去年12月,英伟达推出了面向ADAS和自动驾驶领域的新一代SOC Orin,当时发布的时候是这么说的:「Orin SOC拥有170亿个晶体管,搭载NVDIA下一代GPU(即基于Ampere架构的GPU)和Arm Hercules CPU核心,可以提供200TOPS是运算能力,是上一代Xavier SOC的7倍,功耗45W,2022年交付,面向L2+级自动驾驶场景。
而Drive AGX Xavier 平台包含两颗 Xavier SoC,负载全开的算力可以达到 30TOPS,功耗为 30W。
Drive AGX Pegasus 平台则包括了两颗 Xavier SoC 和两颗基于图灵架构的 GPU,算力能达到 320TOPS,功耗为500W。
如今,英伟达通过两块 Orin SoC 和两块基于安培架构的 GPU 组合,实现了前所未有的 2000 TOPS 算力的 Robotaxi 计算平台,整体功耗为 800W。相较于 Drive AGX Pegasus 的性能又提升了 6 倍多。正因为高算力,这个平台能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。
按一颗 Orin SoC 200TOPS 算力来计算,一块基于安培架构的 GPU 的算力达到了 800TOPS。
按照行业内的说法,L2级自动驾驶需要的算力小于 10 TOPS,L3 需要的算力为 30 - 60 TOPS,L4 需要的算力大于 100 TOPS,L5 需要的算力为 500 -1000TOPS。
对于英伟达的硬件平台而言,可实现ADAS功能的低端计算平台是Orin Soc,体积小巧,可以安装在车内后视镜位置,与车辆的前视摄像头可以融合成一个模块,功耗仅有5W,算力10TOPS。
L2级以上的自动驾驶系统需要中端的自动驾驶计算平台,基于安倍架构和Orin,算力提升至200TOPS,功耗也提升至45W。
根据市场调查数据,英伟达的L2级芯片市场占有率相当不错。奔驰、沃尔沃、丰田、小鹏都是其L2自动驾驶芯片的应用小伙伴。
对于L2级以上甚至于L5级自动驾驶应用, DRIVE Pegasus Robotaxi自动驾驶平台提供两个Orin SoC和两块Ampere GPU,算力直接提升至2000TOPS,功耗800W。据了解,得益于英伟达Ampere GPU,这一代DRIVE Pegasus Robotaxi平台的算力提升了6倍。
不难看出,现在英伟达的自动驾驶计算平台NVIDIA Driver已经建立起了从 10TOPS/5W,200TOPS/45W、320TOPS/500W 到 2000 TOPS/800W 的完整产品线,分别对应前视模块、L2+ADAS 以及 Robotaxi 的各级应用。
英伟达自动驾驶平台从低到高互为补充。Orin SoC用于ADAS计算,体积小、成本低,既有一定的自动驾驶能力,也不会占用车内空间,并且功耗很低不增加负担。定位中端的计算平台具备更强的自动驾驶功能,可以用于L2级以上量产车,成本稍高,但是关键在于可以量产上路,尤其是乘用车市场。而最高端的DRIVE Pegasus Robotaxi自动驾驶平台基本都是用于测试,短时间内难以量产。
在软件方面,英伟达推出了NVIDIA Drive软件平台。黄教主表示,该软件平台涵盖了数据收集、训练模型、模拟等过程,并且向前兼容,最后可以投入实际应用。

四、谈谈NVIDIA的对手之一,网红选手特斯拉FSD


谈到自动驾驶,不得不提到网红特斯拉,其AP3.0(FSD)硬件计算模块可以提供144TOPS的算力,功耗200W,相对于NVIDIA基于单个Orin SoC的运算平台提供200TOPS的算力,功耗只要45W。NVIDIA可以秒杀特斯拉了。
确实,从上面数据上来看,到2022才交付的Orin SoC确实可以秒杀已经量产装车半年多的特斯拉AP3.0(FSD)。
但是这个事情不能简单的拼数据,做电子软件开发的都知道,性能稳定的工程笔记本不一定拼得过学生机的数据。所以,只看数据显然是不合适的。
我们仕道神经网络深度学习等AI算法不是通用型计算,算力是一方面,算法效率则更重要。
Orin SoC的核心是安培(Ampere)GPU,其AI能力由Tensor Core承担。具有TF32的第三代Tensor Core核心就是一种通用矩阵硬件。
再来看AP3.0(FSD)核心是NPU。Tensor Core所代表的通用矩阵计算和AP3.0(FSD)中NPU的卷积计算是两种截然不同的方向,孰好孰劣难以通过一个算力数据来评判 。
显卡出身的NVDIA以大量并行运算单元的堆砌实现高算力,这样做的结果就时候软硬件分离,后果就是可能导致算法效率得不到最好的落实。而特斯拉用NPU搭配自家AI算法的做法虽然任性,但据说效率更高。
这就相当于算得快和算法好的差异。就好像带宽不等于通讯速率一样。算法效率高,就是算力一般也能很快得出结果,算法较差即使算力再高得不出结果也白搭。
从之前特斯拉和NVIDIA合作,和Mobileye合作,最终还是决定自己玩可以略看出端倪。
自动驾驶技术和功能发展的核心要素是算法,硬件虽然重要,但是按照软件定义汽车的概念来分析,硬件要具备通用性,软件可升级,实际上是软硬结合,其实特斯拉的高效也是软硬件结合后的成果。
因此,黄教主在发布安培(Ampere)架构的时候,特意提到了产品的通用性。
硬件的通用性,是对软件定义汽车最好的支持,同时,基于前一代硬件平台研发的AI算法和训练数据可以直接无缝迁移到新的硬件平台上,这是一个累加过程,而不是一个硬性切换。在这方面,特斯拉已经做了很好的示范,FSD的功能开放度通过付费来实现已经说明问题。

五、总结


在车载AI芯片领域,英伟达的主要对手其实是英特尔旗下的 Mobileye,特斯拉虽然牛气但是毕竟核心主业是做车。这几年Mobileye高速发展,几乎垄断了整个 ADAS 市场。而更高级的自动驾驶系统研发,Mobileye的EyeQ5可不仅仅是个摆设。
目前自动驾驶计算平台方面,英伟达绝对是领先的。一是其硬件的通用性和覆盖度,算法工程师可以从最初的基准开发到仿真再到路测整个过程不需要担心硬件平台问题;二是兼容性和软件架构,NVIDIA硬件和架构的升级,同步也会更新软件平台,算力和性能提升的同时保持兼容性,这绝对是自动驾驶开发工程师的福音。
对于高阶自动驾驶技术的发展而言,英伟达正在依靠 Orin SoC 和安培 GPU 架构在计算平台方面引领整个行业。
当然,随着软件定义汽车概念的提出,作为可通过OTA升级的计算平台,英伟达 Drive AGX 具备很好的可扩展性。
尤其是随着安培架构的推出,该平台已经可以实现从入门级 ADAS 解决方案到 L5 级自动驾驶出租车系统的全方位覆盖。

推荐阅读
特斯拉AP3.0(FSD版)域控制器拆解分析学习笔记
NVIDIA Xavier 学习笔记
NVIDIA DrivePX2系统及软硬件架构学习笔记
盘一盘NVIDIA Jetson家族的前浪和后浪


收藏
点赞
2000