AI芯片技术的选型说明

一、背景与意义
当前随着人工智能理论和技术的日益成熟,应用范围不断扩大,目前已广泛应用于计算机科学、金融贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等诸多方面 。
算力作为承载人工智能应用的平台和基础,其发展推动了整个人工智能系统的进步和快速演进,是人工智能最核心的要素之一 。以人工智能应用为主要任务的,面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点,国内外企业纷纷布局AI芯片 。
AI芯片的应用场景不再局限于云端,部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项产品日趋丰富 。除了追求性能提升外,AI芯片也逐渐专注于特殊场景的优化 。
为了进一步促进供需对接,为AI芯片供应商和需求商提供交流的平台,中国人工智能产业发展联盟(以下简称“AIIA”或联盟)计算架构与芯片推进组启动“AI芯片技术选型目录”(以下简称“选型目录”)的工作,希望为AI芯片的可持续发展,服务和促进相关产业发展壮大贡献一份力量 。
人工智能芯片按照目前的应用场景来看,主要分为训练和推断两类场景,按部署位置又可分为云端、边缘和终端 。AIIA“AI芯片技术选型目录”具体根据应用场景与部署位置,包含云端训练、基于云端、边缘和终端推断的四大产品形态 。又依据行业应用,AI芯片技术选型目录根据垂直应用场景如图3所示给出 。

AI芯片技术的选型说明
文章插图
AI芯片根据行业应用分类图
二、云端训练
技术概述
百度昆仑1芯片面向AI通用计算,基于百度XPU架构,既可以用于训练,也可以用于推理,能全面支持语音,图像,自然语言处理等应用 。
技术指标百度昆仑1芯片基于百度XPU架构,采用三星14nm工艺,HBM2和PCIE4.0等技术,给用户提供高性能、高带宽、低功耗、高灵活性、高度可编程等优势 。
产品信息

AI芯片技术的选型说明
文章插图
应用案例
百度ERNIE模型,应用于翻译、搜索排序等场景 。百度网盘里的图像模型;百度云主机;百度云的工业质检客户 。
产品特征/技术特点
1.高性能,峰值256Tops;
2.高带宽,片外内存带宽512GB/s;
3.高度可编程性,能提供C++/C++的编程,用户可以自由开发自己的算子 。
上海燧原科技有限公司-邃思通用人工智能训练芯片
技术概述
邃思芯片集成神经元处理器架构和数据处理引擎,通过可编程的通用张量/向量运算核心,支持各类数据精度的主流深度学习训练负载 。
技术指标
邃思芯片采用12nmFinFET工艺,2.5D封装,总计141亿个晶体管 。其宣称单芯片提供20TFLOPS@FP32及80TFLOPS@BF16/FP16的算力,最大功耗190W 。
邃思芯片主要技术特点包括:自主指令集的神经元处理器(SIP),可编程的通用张量/向量运算核心,支持张量/向量/标量计算;神经元处理集群(SIC),由8个神经元处理器构成,4MB共享集群缓存;自主研发2.5D封装,集成16GBHBM存储,提供512GB/s带宽;自主ESL(燧原智能互联,Enflame SmartLink)片间互联引擎,每通道双向50GB/s,4通道总共200GB/s接口带宽,通道延时小于1μs;系统稳定性控制,支持服务器级别RAS需求 。支持CNN、RNN、LSTM、BERT等网络模型
产品信息

AI芯片技术的选型说明
文章插图
产品特征/技术特点
云燧T10是基于邃思芯片打造的人工智能训练加速卡,20TFLOPS@FP32,最大功耗225W,支持FP32/FP16/BF16/INT8/INT16/INT32等多种数据类型;支持PCIe4.0接口,提供64GB带宽以及200GB/s片间互联带宽;
计算和编程平台主要包含分布式调度、软件开发包(SDK)和设备驱动层,用户可以将已有训练系统,无缝迁移至邃思平台上运行,无需二次开发或者模型转换工作 。
云燧T10人工智能训练加速卡面向云端数据中心,可广泛应用于互联网、金融、教育、医疗、工业及政务等人工智能训练场景 。
NVIDIA-NVIDIAA100/V100/T4Tensor Core GPUs
技术概述
为数据中心GPU,可加快AI、高性能计算(HPC)和图形技术的发展 。
技术指标
NVIDIA Ampere GPU架构配备540亿个晶体管,为7纳米芯片架构,集训练和推理于一身,具有多实例GPU、TF32、结构化稀疏等特性 。
NVIDIAVolta GPU架构配备640个Tensor内核,可提供每秒超过100万亿次(TFLOPS)的深度学习性能,是上一代NVIDIA Pascal架构的5倍以上 。NVIDIA Turing GPU架构支持实时光线追踪、AI、模拟和光栅化技术 。
应用案例
利用NVIDIAA100/V100/T4GPU可以更快速地处理要求最严格的高性能计算(HPC)和超大规模数据中心工作负载 。现在,数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解析PB级的数据,速度比使用传统CPU快几个数量级 。NVIDIA A100/V100/T4加速器可以超快速度运行更大型的模拟 。此外,NVIDIA GPU还能为虚拟桌面、应用程序和工作站提供超高性能和用户密度 。
产品特征/技术特点
NVIDIA A100采用了NVIDIA Ampere架构的突破性设计,集AI训练和推理于一身,宣称其性能相比于前代产品提升了20倍 。作为一款通用型工作负载加速器,A100还被设计用于数据分析、科学计算和云图形 。NVIDIAT4GPU推理加速器搭载NVIDIATuringTensorCore,提供多精度推理性能,以加速人工智能的各种应用 。
产品信息

AI芯片技术的选型说明
文章插图
赛灵思–Alveo
技术概述
赛灵思AlveoTM数据中心加速器卡专为现代数据中心多样的应用需求而设计 。Alveo加速器卡可通过对加速资源的重新配置,适应持续算法优化,在降低总成本的同时,灵活支持各类工作负载 。
赛灵思推出的Vitis统一软件平台为各类软件和AI推理应用开发提供统一编程模型,帮助用户加速实现从C/C++、Python、Caffe、Tensor flow到差异化应用落地的开发过程 。
技术指标
赛灵思Alveo数据中心加速器卡基于Xilinx 16nm Ultra Scale架构,使用赛灵思堆叠硅片互联(SSI)技术来实现FPGA容量、带宽和功耗效率,通过结合多个超逻辑区域(SLR)来增大密度 。
Alveo加速卡旨在加速服务器或工作站中的机器学习、数据分析和视频处理等计算密集型应用 。Alveo U50卡采用XCU50 FPGA包括2个SLR,配备PCIe Gen4和8G HBM2,每秒100G网络连接,以高效能75瓦、小尺寸形式为金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速 。

AI芯片技术的选型说明
文章插图
AlveoU200卡采用XCU200FPGA包括3个SLR,AlveoU250卡使用XCU250FPGA包括4个SLR 。二者均可连接到PCIExpress的16个通道,最高运行速度8GT/s(Gen3),也可以连接到4根DDR4 16GB 2400MT/s64位含纠错码(ECC)的DIMM,总计64GB的DDR4 。
应用案例
Alveo加速卡已经开发和认证的关键应用涵盖AI/ML、视频转码、数据分析、金融风险建模、安全和基因组学等 。Algo-Logic SystemsInc、Bigstream、Black LynxInc.、CTAccel、Falcon Computing、Maxeler Technologies、Mipsology、NGCodec、Skreens、Sum Up Analytics、Titan IC、Vitesse Data、VYUsync和Xelera Technologies等合作伙伴开发完成的应用已经投入部署 。此外,DellEMC、Fujitsu Limited和IBM等顶级OEM厂商也在同赛灵思合作,认证采用Alveo加速器卡的多个服务器SKU 。
Alveo-Mipsology,Zebra搭载Alveo
U50数据中心加速卡用于神经网络推理,板卡功耗75W,关键功能:快速卷积神经网络(CNN)推理——Zebra设立了新的性能标准;支持所有神经网络——Zebra可加速任何CNN的所有层级;易于使用——Zebra是“即插即用”的解决方案,无需对神经网络进行修改或再训练;不改变软件环境——无新语言、框架或工具 。Zebra在TensorFlow、PyTorch、ONNX、Caffe和MXNet模型内运行;可扩展性、灵活性和适应性——Zebra可替代GPU或在任何位置补充CPU 。
Alveo-SK电讯基于人工智能的实时物理入侵和盗窃检测服务,基于赛灵思Alveo U250加速器卡,可提供充足的吞吐量与精准度
产品特征/技术特点
AlveoU50数据中心加速器卡采用赛灵思UltraScale+架构,使用半高半长的外形尺寸和低于75瓦的低包络功耗 。该卡支持第四代PCIe及高带宽存储器(HBM2),每秒100G网络连接,面向各种类型的服务器部署 。
AlveoU50加速器卡产品详细介绍:

AI芯片技术的选型说明
文章插图
通过PCIe3.3V电源供电线提供的HBM2功耗仅限为10W 。使用HBM2可实现的性能受限于此功耗限制,并且因设计而异 。HBM2的额定带宽为201GB/s 。在不兼容PCIe的规格中,针对A-U50DD-P00G-ES3-G和A-U50-P00G-PQ-G卡测得的HBM2带宽峰值为316GB/s 。
AlveoU200和U250数据中心加速器卡采用PCIeGen3x16,设计用于加速高计算强度应用,如机器学习、数据分析和视频处理 。

AI芯片技术的选型说明
文章插图
AlveoU280数据中心加速器卡专为计算和存储工作负载而设计,拥有8GBHBM2+32GB DDR4内存、1.1MLUT、8.5kDSP片、每秒100G双网络连接,并支持第四代PCIe和CCIX互联标准 。
AlveoU280加速器卡产品详细介绍:

AI芯片技术的选型说明
文章插图
产品信息

AI芯片技术的选型说明
文章插图
寒武纪科技股份有限公司-寒武纪思元100
技术概述
为云端推理提供运算能力支撑
技术指标
INT8算力32TOPS,内置硬件编解码引擎
应用案例
计算机视觉、语音识别、自然语言处理 。
产品信息

AI芯片技术的选型说明
文章插图

产品特征/技术特点
1.通用智能,支持计算机视觉、语音识别、自然语言处理等多模态智能处理;
2.针对深度学习定制的指令集和处理器架构,具有更优的能效比;
3.完善软件开发环境NeuWare,包括应用开发、功能调试、性能调优等 。
中科寒武纪科技股份有限公司-寒武纪思元270
为高能效比AI推理设计的数据中心级PCIe智能加速卡 。
技术指标
支持多种精度,比上一代加速芯片计算能力提高4倍,INT8算力128TOPS 。
应用案例
广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用,帮助AI推理平台实现高能效比 。

产品特征/技术特点
1.支持INT16、INT8、INT4、FP32、FP16多种精度;2.内置视频和图片编解码器,有效降低CPU前处理负载和PCIe带宽占用;3.计算弹性,支持多类神经网络,寒武纪Neuware软件栈部署推理环境;4.可编程,基于Bang语言编程环境可对计算资源定制,满足多样化需求 。
产品信息

AI芯片技术的选型说明
文章插图
北京比特大陆科技有限公司-比特大陆算丰TPU芯片BM1684
技术概述
BM1684是比特大陆面向深度学习领域自主研发的第三代张量处理器(TPU),是聚焦视频图像分析的云端及边缘的人工智能推理芯片 。
技术指标
芯片:BM1684聚焦视频图像分析,是云端及边缘的人工智能推理芯片;AI算力:17.6TOPSINT8,Winograd卷积加速下最高可达35.2TOPS,实测推理性能较上一代提升约5倍以上;AI架构:本芯片基于自主研发的TPU架构;典型功耗:16W;视频解码:支持H264/H265解码,最大分辨率8192x8192,支持4K/8K 。H264和H265解码都支持32路高清30FPS@1080P,可处理数十路视频智能分析全流程;
应用案例
北京海淀城市大脑中的AI计算推理,百度大脑Paddle TPU计算集群,处理千路级别的高清视频结构化 。福州长乐区的AI算力中心TPU计算集群,处理上千路的高清视频结构化、人脸识别等 。福州城市大脑的AI计算推理TPU计算集群,处理千路级别的高清视频结构化 。
优必达(Ubitus)的互联网云端游戏AI加速TPU加速游戏中的图像特征提取,画面增强,超分辨率等 。
产品特征/技术特点
BM1684芯片技术特点是:
1)TPU芯片架构自主研发,相关专利申请达到270项以上;
2)性能功耗比高,在16W情况下,最高可达到35.2T性能(Winograd加速);
3)视频解码路数多,支持32路H264和H265高清30FPS@1080P硬解码;
4)视频全流程处理能力强,可达到16~32路典型视频结构化/人脸分析路数;
5)AI工具链完备,Caffe,Tensorflow,PyTorch,MXNet,PaddlePaddle都支持;
6)部署场景灵活,云端和边缘均可部署;
7)使用灵活,可工作于PCIE从设备模式或者SOC主设备模式;
板卡产品特色:
1)75W半高半长PCIE小卡,峰值算力105.6T,无需外接供电;
2)宣称其性能赶上并部分超越英伟达推理GPUT4;
3)视频解码路数多,96路高清视频30FPS解码;
模组产品特色:
1)AI边缘计算模组,17.6T/35.2T;
2)视频解码支持32路H264和H265高清30FPS@1080P硬解码;
3)视频全流程处理可达到16~32路典型视频结构化/人脸分析;
盒子产品特色:
【AI芯片技术的选型说明】 1)AI边缘计算盒子,17.6T/35.2T;
2)视频全流程处理能力可达到16~32路典型视频结构化/人脸分析;
3)可室外部署,无风扇散热,-20℃至
+60℃宽温;
4)接口支持USB/HDMI/RS-485/RS-
232等;
产品信息

AI芯片技术的选型说明
文章插图
深圳鲲云信息科技有限公司-星空x3加速卡
技术概述
星空X3加速卡为鲲云推出的面向边缘端和数据中心进行深度学习推断的AI计算加速卡,搭载鲲云自研的定制数据流CAISA芯片,采用无指令集的架构方式,为支持深度学习的边缘和数据中心服务器提供计算加速方案 。
技术指标
支持ResNet、VGG、YOLO等多个主流
CNN算法模型提供Rain Builder编译工具链,支持端到端算法开发和部署支持Tensor Flow、Caffe、PyTorch及ONNX(MXNet)等主流深度学习框架开发的算法模型其宣称芯片利用率可达95.4%
应用案例
工业领域:鲲云与合作方针对某电容上激光刻蚀字符推出基于深度学习的OCR识别方案,识别算法采用了深度学习方法,可识别字母、数字以及数十种特殊字符,字符识别精度可达到99.99% 。采用搭载鲲云CAISA芯片的星空加速卡,识别延迟可以降低到50ms,识别速度可达到20pcs/s 。
电力领域
鲲云与合作方通过研究适用于电力无人机巡检的目标检测深度学习算法,实现基于人工智能技术的电力无人机智能巡检、数据采集,并在服务器端进行高质量的图片数据分析,提高巡检效率,降低巡检工作量 。
产品特征/技术特点
其宣称芯片利用率可达95.4%;时延:3ms分类延时支持分类、目标检测以及语义分割类深度学习算法;Batchsize不敏感;温度范围:-20℃~70℃
实测Benchmark

AI芯片技术的选型说明
文章插图
产品信息

AI芯片技术的选型说明
文章插图
华为技术有限公司-昇腾310AI处理器
技术概述
昇腾AI处理器的主要架构组成:芯片系统控制CPU(Control CPU)
AI计算引擎(包括AICore和AI CPU)多层级的片上系统缓存(Cache)或缓冲区(Buffer)数字视觉预处理模块(Digital VisionPre-Processing,DVPP)等 。
技术指标

AI芯片技术的选型说明
文章插图
应用案例
华为针对其昇腾AI芯片的计算架构专门构建了完整的软件栈,兼容各个深度学习框架并能够高效运行在昇腾AI芯片上,让开发者能够快速开发推理应用,为开发者提供便利的解决方案 。当前主流的深度学习应用,包括图像分类、人脸识别、目标检测、光学字符识别、视频处理和自然语言处理领域的各个模型,均可以在昇腾310处理器上得到很好的技术支持 。
产品特征/技术特点
达芬奇架构主要由计算单元、存储系统和控制单元三部分构成 。其中计算单元又分为:矩阵计算单元、向量计算单元、标量计算单元,分别对应矩阵、向量和标量三种常见的计算模式 。
矩阵计算单元(CubeUnit):矩阵计算单元和累加器主要完成矩阵相关运算 。一拍完成一个FP16的16x16与16x16矩阵乘(4096);如果是INT8输入,则一拍完成16*32与32*16矩阵乘(8192);
向量计算单元(VectorUnit):实现向量和标量,或双向量之间的计算,功能覆盖各种基本的计算类型和许多定制的计算类型,主要包括FP16/FP32/INT32/INT8等数据类型的计算;
标量计算单元(ScalarUnit):相当于一个微型CPU,控制整个AICore的运行,完成整个程序的循环控制、分支判断,可以为Cube/Vector提供数据地址和相关参数的计算,以及基本的算术运算 。
产品信息

AI芯片技术的选型说明
文章插图
如需下载完整报告,请在后台回复“报告” 。

    推荐阅读