作者:Albert Reuther
机器之心编译
机器之心编辑部

过去几年,关于人工智能和机器学习加速器的发展进行到哪一阶段了?来自 MIT 的研究者通过一篇综述性文章总结了过去三年终于 AI 加速器和处理器的调查。
过去这一年,无论是初创公司还是成丰年夜厂,预报、发布和支配人工智能(AI)和机器学习(ML)加速器的步伐很缓慢。但这并非不合理,对付许多发布加速器报告的公司来说,他们花三到四年的韶光研究、剖析、设计、验证和对加速器设计的权衡,并构建对加速器进行编程的技能堆栈。对付那些已发布升级版本加速器的公司来说,虽然他们报告的开拓周期更短,但至少还是要两三年。这些加速器的重点仍旧是加速深层神经网络(DNN)模型,运用处景从极低功耗嵌入式语音识别和图像分类到数据中央大模型演习,范例的市场和运用领域的竞争仍在连续,这是工业公司和技能公司从当代传统打算向机器学习办理方案转变的主要部分。
人工智能生态系统将边缘打算、传统高性能打算(HPC)和高性能数据剖析(HPDA)的组件结合在一起,这些组件必须协同事情,才能有效地给决策者、一线人员和剖析师赋能。图 1 展示了这种端到端 AI 办理方案及其组件的架构概览。
原始数据首先须要进行数据规整,在该步骤中数据被领悟、聚合、构造化、累积并转换为信息。数据规整步骤天生的信息作为神经网络等有监督或无监督算法的输入,这些算法可提取模式、添补缺失落数据或查找数据集之间的相似性、进行预测,从而将输入信息转换为可操作的知识。这些可操作的知识将会通报给人类,用于人机协作阶段的决策过程。人机协作阶段为用户供应有用且主要的洞察,将知识转化为可操作的智能或洞察力。
支撑这个别系的是当代打算系统。摩尔定律的趋势已经结束,但同时还有许多干系的定律和趋势被提出来,如 Denard 定律(功率密度)、时钟频率、核心数、每时钟周期的指令和每焦耳的指令(Koomey 定律)。从最早涌如今汽车运用、机器人和智好手机中的片上系统(SoC)趋势来看,通过开拓和集成常用内核、方法或功能的加速器,其创新仍在不断进步。这些加速器在性能和功能灵巧性之间存在不同的平衡,包括深度学习处理器和加速器的创新爆发。通过阅读大量干系论文,本文磋商了这些技能的相对上风,由于它们对付将人工智能运用于对大小、重量和功率等有极大哀求的嵌入式系统和数据中央时特殊主要。
本文是对 IEEE-HPEC 过去三年论文的一次更新。与过去几年一样,本文连续关注深度神经网络(DNN)和卷积神经网络(CNN)的加速器和处理器,它们的打算量极大。本文紧张针对加速器和处理器在推理方面的发展,由于很多 AI/ML 边缘运用极度依赖推理。本文针对加速器支持的所有数字精度类型,但对付大多数加速器来说,它们的最佳推理性能是 int8 或 fp16/bf16(IEEE 16 位浮点或 Google 的 16 位 brain float)。
论文链接:https://arxiv.org/pdf/2210.04055.pdf
目前,已经有很多磋商 AI 加速器的论文。如本系列调查的第一篇论文就有磋商某些 AI 模型的 FPGA 的峰值性能,之前的调查都深入覆盖了 FPGA,因此不再包含在本次调查中。这项持续调查事情和文章旨在网络一份全面的 AI 加速器列表,包括它们的打算能力、能效以及在嵌入式和数据中央运用中利用加速器的打算效率。与此同时文章紧张比较了用于政府和工业传感器和数据处理运用的神经网络加速器。前几年论文中包含的一些加速器和处理器已被打消在今年的调查之外,之以是放弃它们,是由于它们可能已经被同一家公司的新加速器替代、不再掩护或者与主题不再干系。
处理器调查
人工智能的许多最新进展部分缘故原由要归功于硬件性能的提升,这使得须要巨大算力的机器学习算法,尤其是 DNN 等网络能够实现。本文的这次调查从公开可用的材料中网络各种信息,包括各种研究论文、技能期刊、公司发布的基准等。虽然还有其他方法获取公司和初创公司(包括那些处于沉默期的公司)的信息,但本文在本次调查时忽略了这些信息,这些数据将在公开后纳入该调查。该公共数据的关键指标如下图所示,其反响了最新的处理器峰值性能与功耗的关系能力(截至 2022 年 7 月)。
把稳:图 2 中虚线方框与下图 3 是对应的,图 3 是把虚线框放大后的图。
图中 x 轴表示峰值功率,y 轴表示每秒峰值千兆操作数(GOps/s),均为对数尺度。处理能力的打算精度用不同几何形状表示,打算精度范围从 int1 到 int32、从 fp16 到 fp64。显示的精度有两种类型,左边代表乘法运算的精度,右边代表累加 / 加运算的精度(如 fp16.32 表示 fp16 乘法和 fp32 累加 / 加)。利用颜色和形状区分不同类型系统和峰值功率。蓝色表示单芯片;橙色表示卡;绿色表示整体系统(单节点桌面和做事器系统)。这次调查仅限于单主板、单内存系统。图中空心几何图形是仅进行推理加速器的最高性能,而实心几何图形代表实行演习和推理的加速器的性能。
本次调查中本文以过去三年调查数据的散点图开篇。下表 1 中本文总结了加速器、卡和整体系统的一些主要元数据,包括图 2 中每个点的标签,许多要点都是从去年的调查中提出来的。表 1 中大多数列和条款都是准确清楚的。但有两个技能条款可能不是:Dataflow 和 PIM。Dataflow 型处理器是为神经网络推理和演习定制的处理器。由于神经网络演习和推理打算完备确定地构建,因此它们适宜 dataflow 处理,个中打算、内存访问和 ALU 间通信被显式 / 静态编程或者布局布线到打算硬件。内存处理器(PIM)加速器将处理元素与内存技能集成在一起。在这些 PIM 加速器中,有一些基于仿照打算技能的加速器,该技能利用就地仿照乘法加法功能增强闪存电路。可以参考 Mythic 和 Gyrfalcon 加速器的干系资料,理解关于此创新技能的更多详细信息。
本文根据加速器的预期运用对其进行合理分类,图 1 用椭圆标识了五类加速器,根据性能和功耗做对应:功耗非常低,传感器非常小的语音处理;嵌入式摄像机、小型无人机和机器人;驾驶赞助系统、自动驾驶和自动机器人;数据中央的芯片和卡;数据中央系统。
大多数加速器的性能、功能等指标都没有改变,可以参阅过去两年的论文以理解干系信息。下面的是没有被过去的文章所收录的加速器。
荷兰嵌入式系统初创公司 Acelera 声称他们生产的嵌入式测试芯片具有数字和仿照设计能力,而这种测试芯片是为了测试数字设计能力的范围。他们希望在未来的事情中增加仿照(也可能是闪存)设计要素。
Maxim Integrated 发布了一款名为 MAX78000 用于超低功耗运用的系统芯片(SoC)。其包括 ARM CPU 内核、RISC-V CPU 内核和 AI 加速器。ARM 核心用于快速原型设计和代码重用,而 RISC-V 核心用于实现优化,以实现最低的功耗。AI 加速器有 64 个并行处理器,支持 1 位、2 位、4 位和 8 位整数运算。SoC 的最大事情功率为 30mW,适用于低延迟、电池供电的运用。
Tachyum 最近发布名为 Prodigy 一体式处理器,Prodigy 每个核心都集成 CPU 和 GPU 的功能,它是为 HPC 和机器学习运用程序设计的,该芯片有 128 个高性能统一内核,运行频率为 5.7GHz。
NVIDIA 于 2022 年 3 月发布了名为 Hopper(H100)的下一代 GPU。Hopper 集成更多的 Symmetric Multiprocessor(SIMD 和 Tensor 核),50% 的内存带宽,SXM 夹层卡实例的功率为 700W。(PCIe 卡功率为 450W)
过去几年 NVIDIA 发布了一系列系统平台,用于支配在汽车、机器人和其他嵌入式运用程序 Ampere 架构的 GPU。对付汽车运用,DRIVE AGX 平台增加了两个新系统:DRIVE AGX L2 可在 45W 功率范围内实现 2 级自动驾驶,DRIVE AGX L5 可在 800W 功率范围内能实现 5 级自动驾驶。Jetson AGX Orin 和 Jetson NX Orin 也利用 Ampere 架构 GPU,用于机器人、工厂自动化等,它们最大峰值功率为 60W 和 25W。
Graphcore 发布其第二代加速器芯片 CG200,它支配在 PCIe 卡上,峰值功率约为 300W。去年,Graphcore 还推出 Bow 加速器,这是与台积电互助设计的首款晶圆对晶圆处理器。加速器本身与上面提到的 CG200 相同,但它与第二块晶片合营利用,从而大大改进了全体 CG200 芯片的功率和时钟分布。这意味着性能提高了 40% 以及 16% 每瓦特的性能提升。
2021 年 6 月,谷歌宣告了其第四代纯推理 TPU4i 加速器的详细信息。将近一年后,谷歌分享了其第 4 代演习加速器 TPUv4 的详细信息。虽然官宣的细节很少,但他们分享了峰值功率和干系性能数值。与以前的 TPU 各种版本一样,TPU4 可通过 Google Compute Cloud 得到并用于内部操作。
接下来是对没有涌如今图 2 中的加速器的先容,个中每个版本都发布一些基准测试结果,但有的短缺峰值性能,有的没有公布峰值功率,详细如下。
SambaNova 去年发布了一些可重构 AI 加速器技能的基准测试结果,今年也发布了多项干系技能并与阿贡国家实验室互助揭橥了运用论文,不过 SambaNova 没有供应任何细节,只能从公开的资料估算其办理方案的峰值性能或功耗。
今年 5 月,英特尔 Habana 实验室宣告推出第二代 Goya 推理加速器和 Gaudi 演习加速器,分别命名为 Greco 和 Gaudi2。两者性能都比之前版本表现好几倍。Greco 是 75w 的单宽 PCIe 卡,而 Gaudi2 还是 650w 的双宽 PCIe 卡(可能在 PCIe 5.0 插槽上)。Habana 发布了 Gaudi2 与 Nvidia A100 GPU 的一些基准比较,但没有表露这两款加速器的峰值性能数据。
Esperanto 已经生产了一些 Demo 芯片,供三星和其他互助伙伴评估。该芯片是一个 1000 核 RISC-V 处理器,每个核都有一个 AI 张量加速器。Esperanto 已经发布了部分性能指标,但它们没有表露峰值功率或峰值性能。
在特斯拉 AI Day 中,特斯拉先容了他们定制的 Dojo 加速器以及系统的一些细节。他们的芯片具有 22.6 TF FP32 性能的峰值,但没有公布每个芯片的峰值功耗,大概这些细节会在往后公布。
去年 Centaur Technology 推出一款带有集成 AI 加速器的 x86 CPU,其拥有 4096 字节宽的 SIMD 单元,性能很有竞争力。但 Centaur 的母公司 VIA Technologies 将位于美国的处理器工程团队卖给了 Intel,彷佛已经结束了 CNS 处理器的开拓。
一些不雅观察以及趋势
图 2 中有几个不雅观察值得一提,详细内容如下。
Int8 仍旧是嵌入式、自主和数据中央推理运用程序的默认数字精度。这种精度对付利用有理数的大多数 AI/ML 运用程序来说是足够的。同时一些加速器利用 fp16 或 bf16。模型演习利用整数表示。
在极低功耗的芯片中,除了用于机器学习的加速器之外,还没创造其他额外功能。在极低功耗芯片和嵌入式种别中,发布片上系统(SoC)办理方案是很常见的,常日包括低功耗 CPU 内核、音频和***模数转换器(ADC)、加密引擎、网络接口等。SoC 的这些附加功能不会改变峰值性能指标,但它们确实会对芯片报告的峰值功率产生直接影响,以是在比较它们时这一点很主要。
嵌入式部分的变革不大,便是说打算性能和峰值功率足以知足该领域的运用需求。
过去几年,包括德州仪器在内的几家公司已经发布了 AI 加速器。而 NVIDIA 也发布了一些性能更好的汽车和机器人运用系统,如前所述。在数据中央中,为了打破 PCIe v4 300W 的功率限定,PCIe v5 规格备受期待。
末了,高端演习系统不仅发布了令人印象深刻的性能数据,而且这些公司还发布了高度可扩展的互联技能,将数千张卡连接在一起。这对付像 Cerebras、GraphCore、Groq、Tesla Dojo 和 SambaNova 这样的数据流加速器尤其主要,这些加速器通过显式 / 静态编程或布局布线到打算硬件上的。这样一来它使这些加速器能够适应像 transformer 这种超大模型。
更多细节请参考原文。