AI优化的FPGA和GPU的芯片级对比-电子发烧友网

本部分，我们就跟随作者一起看看Intel Stratix10 NX和Nvidia在这个领域的利器T4以及V100之间的对比，过程分为芯片级对比以及系统级对比。

本部分一起先来看看芯片级对比

首先来看下我们的GPU对手——Nvidia T4和V100分别有320个和640个张量核（专门用于AI工作负载的矩阵乘法引擎）

Nvidia Tesla T4

Nvidia Tesla V100

下面表格总结了与Stratix10 NX和这些同代工艺GPU的关键指标对比。就die尺寸来说，V100是Nvidia最大的12nm GPU，几乎比T4大50%，而Stratix10 NX比两种GPU都小。

首先，文章使用GPU最擅长处理的工作负载：通用矩阵乘（GEMM）来跑GPU的benchmark（什么是GEMM请移步https://spatial-lang.org/gemm），为了测量最佳的GPU性能，对每个器件使用最新的library，这些库不会出错，并且分别在使用和不使用张量核的情况下测试性能。对于fp32和fp16实验，分别使用CUDA10.0和10.2的CuBLAS库进行V100和T4。对于int8，我们使用CUDA10.2中的cuBLASLt库，这样可以比cuBLAS库获得更高的int8性能。文章使用Nvidia的官方（高度优化）的cuDNN kernel来处理DL工作负载，并且分别对V100和T4使用了从cuDNN7.6.2和7.6.5。（cuBLAS API，从cuda6.0开始；cuBLASLt API，从cuda10.1开始）

cuDNN库不支持int8计算kernel，但它们支持将所有模型权重保存在片上内存中。对于每个工作负载、问题大小和序列长度，文章在两种GPU上运行了所有可能的配置组合，如精度{fp32、fp16、int8}、计算样式{persistent、non-persistent}、张量核心设置{enable、disable}。然后，选择最佳的性能，来和Stratix10 NX的NPU进行比较。这里因为是芯片级对比，所以只考虑了芯核的计算效率，不包括任何初始化、芯核启动或主机-GPU数据传输开销。

下图给出了T4和V100 GPU上fp32、fp16和int8精度的GEMM benchmark测试结果。结果表明，相对于张量核禁用情况（蓝线），启用张量核（红线）可以显著提高GPU在GEMM上的性能。

然而，一个普遍的趋势是，张量核虽然是为GEMM设计的，但在矩阵大小为2048或以下情况时的利用效率明显不如峰值情况（红色虚线）。因此要实现高利用率，除非工作负载中的矩阵大小非常大，而这在实际DL工作负载中并不常见。T4和V100上的张量核都不支持fp32的精度，而是在执行乘法运算之前，将fp32数据转换为fp16。相对于纯fp16 GEMM，这种数据转换开销降低了张量核性能。另一个有趣的情况是，当T4张量核在int8模式下工作时，它们需要将输入矩阵从标准的行/列主要格式转换为特定于张量核的布局。因此，即使在处理非常大的8192×8192矩阵时，在张量核（没有标记的红线）上实现的int8性能还不到峰值性能的45%。

为了更好地理解这种数据转换的开销，文章还进行了一个额外的实验，在这个实验中，对张量核进行了特殊布局（带有标记的红线）。即使不算矩阵布局变化的开销，对于4096×4096及以下的矩阵大小，张量核利用率也小于40%，在6144×6144矩阵中利用率达到最高为72%。

下面来看看FPGA上的情况，上图（Fig.6）的右上角那张图比较了Stratix10 NX上的NPU性能与具有int8张量核的T4 GPU的性能。为了公平地比较，文章禁用了NPU两个输入矩阵其中一个的矩阵布局变换，只保留了对另一个输入以及输出矩阵的布局变换（因为NPU以标准格式使用和生成这些矩阵）。

虽然NPU是为矩阵向量运算而设计的，但它在GEMM工作负载上仍然实现了与T4相似的性能，其矩阵大小从512到3072不等（最大的矩阵可以fit进片上BRAM）。

最后，一起看看顶级FPGA和GPU的PK结果。下图（Fig.7）将文章在Stratix10 NX上增强型NPU的性能与T4和V100的最佳性能进行比较。对于比较小的batch-3和batch-6情况，FPGA性能总是显著高于两个GPU。FPGA在batch-6（其设计为：双核batch-3）中表现最好，平均性能分别是T4和V100的24.2x和11.7x。

与batch-6相比，FPGA在batch-3上的性能较低，因为两个核中的一个完全空闲。然而，它仍然比T4和V100分别平均快了22.3x和9.3x。在batch size高于6时，如果batch size不能被6整除，则NPU可能不能被充分利用。例如，在batch size为8、32和256的情况下，NPU最多可以达到其batch-6性能的67%、89%和99%，而batch size为12、36和258（上图中的虚线所示）可以达到100%的效率。在32输入的中等batch size情况下，NX仍然比T4具有更好的性能，并且与V100性能相当。

即使在比较大的batch size情况下，NX的性能也比T4高58%，只比die size更大（大将近一倍）的V100低30%。这些结果表明，人工智能优化的FPGA在低batch实时推理中不仅可以实现比GPU好一个数量级的性能，而且可以在放宽延迟约束下的高batch推理中和GPU匹敌。上图（Fig.7）中的右下角图总结了不同batch size情况下NX相对于CPU的平均加速情况。

上图（Fig.7）中的右上角图显示了与不同batch大小下的两个GPU相比，NX的平均利用率。NX在batch-6中的平均利用率为37.1%，而T4和V100分别仅为1.5%和3%。GPU张量核并非直接互连，它们只能接收来自本地核内寄存器文件的输入。因此，每个GPU张量核都必须发送它的partial result到全局内存中，并与其他张量核同步，以结合这些partial result。然后GPU从全局内存中读取组合好的矢量来执行进一步的操作，如激活函数（activation functions）。

较高的batch size可以摊销这种同步延迟，但即使在batch-256情况下，T4和V100的利用率分别只有13.3%和17.8%。另一方面，FPGA在架构上也更具优势，其在张量块之间有专用的用来做减法的互连， FPGA的可编程布线资源还允许将MVU tile和矢量单元级引擎级联起来进行直接通信，减少了像GPU中那样必须通过内存通信的情况。

综上可以看到，FPGA依靠架构优势和超高的资源利用率，在AI性能PK上对GPU形成了强劲挑战。下一篇，我们再来一起看看从系统角度，FPGA和GPU的对比情况以及功耗方面的分析。

原文标题：读《超越巅峰性能：AI优化的FPGA和GPU真实性能对比》：芯对芯

文章出处：【微信公众号：FPGA之家】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1629

文章
21735

浏览量
603195
AI

AI

+关注

关注
87

文章
30839

浏览量
268997

原文标题：读<超越巅峰性能：AI优化的FPGA和GPU真实性能对比>：芯对芯

文章出处：【微信号：zhuyandz，微信公众号：FPGA之家】欢迎添加关注！文章转载请注明出处。

芯片级封装的bq24165/166/16评估模块

电子发烧友网站提供《芯片级封装的bq24165/166/16评估模块.pdf》资料免费下载

发表于 12-18 14:56 •0次下载

<b class='flag-5'>芯片级</b>封装的bq24165/166/16评估模块

行业首个芯片级游戏威廉希尔官方网站，OPPO「风驰游戏内核」正式亮相一加游戏大会

独家自研芯片级游戏威廉希尔官方网站「风驰游戏内核」,深入芯片底层,实现芯片性能供给与游戏性能需求的精准平衡,在功耗、温度和画质三方面体验全面提升,堪比一次芯片的自我迭代。「风驰

发表于 12-13 10:20 •175次阅读

行业首个<b class='flag-5'>芯片级</b>游戏威廉希尔官方网站
，OPPO「风驰游戏内核」正式亮相一加游戏大会

一加将首发芯片级游戏威廉希尔官方网站带来极致手游体验

一加即将召开一场盛大的游戏盛会，届时将揭晓其最新旗舰手机系列。中国区总裁李杰在采访中透露，一加团队在移动游戏威廉希尔官方网站领域取得了重大进展，推出了一种创新的“芯片级游戏优化威廉希尔官方网站 ”。这项威廉希尔官方网站不仅对硬件适配

发表于 12-11 15:51 •174次阅读

NPU与GPU的性能对比

它们在不同应用场景下的表现。一、设计初衷与优化方向 NPU ：专为加速AI任务而设计，包括深度学习和推理。针对神经网络的计算模式进行了优化，能够高效地执行矩阵乘法、卷积等操作。拥有众多小型处理单元，配备专门的内存体系结构

发表于 11-14 15:19 •969次阅读

瑞沃微：一文详解CSP（Chip Scale Package）芯片级封装工艺

在半导体威廉希尔官方网站的快速发展中，封装威廉希尔官方网站作为连接芯片与外部世界的桥梁，其重要性不言而喻。CSP（Chip Scale Package），即芯片级封装威廉希尔官方网站，正是近年来备受瞩目的一种先进封装威廉希尔官方网站。今天，请跟随瑞沃微的脚步，一起深入了解CSP芯片级

发表于 11-06 10:53 •745次阅读

实现芯片级封装的最佳热性能

电子发烧友网站提供《实现芯片级封装的最佳热性能.pdf》资料免费下载

发表于 10-15 10:22 •0次下载

解决芯片级功率MOSFET的组装问题

电子发烧友网站提供《解决芯片级功率MOSFET的组装问题.pdf》资料免费下载

发表于 08-27 11:17 •0次下载

自动驾驶三大主流芯片架构分析

当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的

发表于 08-19 17:11 •1613次阅读

概伦电子宣布正式推出芯片级HBM静电防护分析平台ESDi

近日，概伦电子宣布正式推出芯片级HBM静电防护分析平台ESDi和功率器件及电源芯片设计分析验证工具PTM，并开始在国内外市场广泛推广。

发表于 05-28 10:09 •582次阅读

FPGA芯片你了解多少？

的缺点。 FPGA和CPU、GPU、ASIC的芯片等核心区别是其底层逻辑运算单元的连线及逻辑布局未固化，用户可通过 EDA 软件对逻辑单元和开关阵列编程，进行功能配置，从而去实现特定功能的集成电路

发表于 04-17 11:13

FPGA在深度学习应用中或将取代GPU

对神经网络进行任何更改，也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了将深度学习代码转换为 FPGA 硬件指令的抽象层 AI 硬件前景

发表于 03-21 15:19

fpga芯片和人工智能芯片的区别

FPGA芯片和人工智能芯片（AI芯片）在设计和应用上存在一些关键的区别，这些区别主要体现在它们的功能、优

发表于 03-14 17:26 •1231次阅读

在芯片级的薄膜电阻和板级的厚膜电阻都是如何进行修调呢？

在MEMS某些器件设计中，常常需要用到可调电阻，在板级电路上可以通过电位器对贴片电阻进行调阻，但在芯片级的薄膜电阻和板级的厚膜电阻都是如何进行修调呢？

发表于 02-29 10:44 •963次阅读

Vision Pro芯片级内部拆解分析

近日国外知名拆解机构iFixit对Vision Pro进行了芯片级拆解，结果显示该设备内含大量德州仪器（TI）芯片，还有一颗国产芯片——兆易创新GD25Q80E 1 MB 串行 NOR 闪存。

发表于 02-21 10:11 •1307次阅读

FPGA、ASIC、GPU谁是最合适的AI芯片？

CPU、GPU遵循的是冯·诺依曼体系结构，指令要经过存储、译码、执行等步骤，共享内存在使用时，要经历仲裁和缓存。而FPGA和ASIC并不是冯·诺依曼架构（是哈佛架构）。以FPGA为例，它本质上是无指令、无需共享内存的体系结

发表于 01-06 11:20 •1645次阅读