Level 5自动驾驶需要500+TOPS算力，IMG Series4多核集群AI加速器能否胜任？

据ABI Research预计，到2027年全球汽车市场对先进驾驶辅助系统（ADAS）的需求将增长两倍，这对新型汽车创新者、传统整车厂商（OEM）、Tier1供应商，以及汽车系统级芯片（SoC）厂商无疑都是好消息。但汽车行业领导者早已将目光投向了更远的全自动驾驶和自动驾驶出租车（RoboTaxi）。在从L2/L3级ADAS向L4/L5级全自动驾驶演进的过程中，神经网络加速器将是至关重要的组成部分。这些ADAS/自动驾驶系统需要处理各种各样的复杂场景，比如从多个摄像头和激光雷达的传感器融合中提取数据，以实现自动泊车、十字路口管理，以及复杂城市环境安全导航等高级功能。能够结合高性能、低延迟和高能效的AI加速器将是实现高级别自动驾驶的关键所在。
想了解ADAS/自动驾驶的最新设计和市场趋势？请即刻报名参加：汽车电子高峰论坛

文章插图
近日Imagination推出专门面向ADAS和自动驾驶应用的新一代神经网络加速器（NNA）IMG Series4 。据称这种AI加速器采用全新的多核架构，可提供高达600 TOPS（每秒万亿次操作）的超高计算性能，并且可为神经网络工作负载提供低带宽和低延迟特性。

文章插图
Imagination视觉和人工智能部门高级总监Andrew Grant列举出IMG Series4的五大特性：

多核扩展和灵活性：全新的多核架构支持在多个内核之间对工作负载进行灵活分配和同步。Imagination软件可提供精细的控制能力，可通过对多个工作负载进行批处理、拆分和调度而提高灵活性。Series4可为每个集群配置 2个、4个、6个或者8个内核。
超高性能：Series4单核能够以不到1W的功耗提供12.5 TOPS的性能，比如一个8核集群可以提供100 TOPS的算力，那么若配置6个这种8核集群就可以提供高达600 TOPS的算力，足以满足Level 5完全自动驾驶所需要的500 TOPS 。在AI推理方面，Series4 NNA的性能比嵌入式GPU快20倍以上，而比嵌入式CPU快1000倍。
超低延迟：将多个内核组成2核、4核、6核或8核的多核集群，所有内核可以相互协作，并行处理一个任务，从而降低处理延迟，缩短响应时间。例如，对于一个8核集群，理想情况下延迟会减少至单核独立执行时的1/8 。
节省带宽：Imagination在Series4中新增了Tensor Tiling（ITT）技术，可以对计算任务进行瓦面平铺（tiling），充分利用片上存储来提升数据处理效率，并节省访问外部存储的带宽。ITT利用本地数据的依赖性将中间数据保存在片上存储器中，这样可以最大限度地减少将数据传输至外部存储器，从而大大降低带宽，多达90％。ITT是一种可扩展的算法，在拥有大量输入数据的网络上具有显著优势。
车规级安全性：Series4包含IP级别的安全功能，而且其设计流程符合汽车电子行业安全标准ISO 26262 。在不影响性能的前提下，Series4可以安全地进行神经网络推理。其硬件安全机制可以保护编译后的网络、网络执行和数据处理管道。

Andrew Grant认为，Series4 NNA将会成为开发ADAS和自动驾驶汽车的行业标准平台。一些行业创新者已经在着手打造支持下一代ADAS功能和自动驾驶的系统级芯片，这一AI加速平台将为他们提供算力、功耗、带宽和延迟等方面的最佳组合性能。
多核集群实现性能线性提升随着汽车电子从数字驾驶舱/人机界面（HMI）向ADAS和自动驾驶的演讲，在保证安全性和可靠性的同时，对处理性能要求越来越高。比如，Level 2级别的驾驶员监测功能只需要10 TOPS的算力即可处理，而Level 3-4级别的自动泊车功能就需要100 TOPS性能。要实现Level 5级别的完全自动驾驶，必须有500 TOPS以上的算力支持才行。

文章插图
Series4 NNA采用全新的内核架构，每个内核具有12.5 TOPS性能。若基于5nm工艺节点，8个内核的集群可提供： 100 TOPS的算力性能；30 TOPS/Watt 的性能功耗比；12 TOPS/mm^2 的性能密度；低延迟处理大量输入数据。

文章插图
由4 个内核组成的 50 TOPS 集群能够跨整个集群拆分各层，比如支持并行处理大型网络的各层；减少整体延迟，特别是在拥有大尺寸输入层的网络上。而各内核能够独立运行，可以共同执行一个批处理任务，也可以分别运行各自不同的网络。此外，这种4内核集群可以作为基础模块进行算力扩展。比如，4个50 TOPS集群就可以构成一个200 TOPS的多集群引擎。3个这种多集群引擎组合起来，就可以达到600 TOPS的算力性能，满足Level 5自动驾驶算力要求。

文章插图
张量平铺(Tensor Tiling)技术 Imagination产品管理部门总监Gilberto Rodriguez对Series4新增的张量平铺（Tensor Tiling, ITT）技术做了详细介绍。网络的多层是以融合内核的形式在加速器硬件流水线里运行的，而融合内核之间的特征图需要通过外部存储进行交换。在不采用ITT技术的情况下，内核需要频繁的DDR存取，因此会占用很大的带宽。

文章插图
若采用了ITT技术，就可以充分利用紧耦合的 SRAM 来融合更多的层，减少需要通过外部存储交换的特征图，从而降低带宽需求。

文章插图
结语ADAS和自动驾驶虽然呼声很高，但仍然难以商用落地。究其原因，严苛的安全性和极高的算力和即时处理决策要求对汽车厂商及其供应商提出了很大的挑战。素以GPU内核著称的Imagination技术公司开始发力AI加速器市场，最新发布的Series 4 NNA专为ADAS/自动驾驶应用而设计。虽然其多核集群架构可以提供高达600 TOPS的算力性能，但能否真正满足完全自动驾驶的性能需求，还要看基于这种AI加速器内核的芯片和系统开发，真正应用到自动驾驶实际场景中能否胜任还需要市场的检验。
【Level 5自动驾驶需要500+TOPS算力，IMG Series4多核集群AI加速器能否胜任？】