资料介绍
描述
在本周的部分中,一切都与性能有关。FPGA 的常见用途之一是提高速度和/或能源效率方面的性能。这部分是通过 1) 消除指令的解释开销,2) 消除中央内存瓶颈,以及 3) 指令级并行性来实现的。
如果您是本系列的新手,您可能想返回到Hardware-as-Code Part I 。
示例 1 的性能
在第二部分中,我们生成了以下简单功能的硬件实现:
int16_t calc(int16_t x) {
return 7 * x - 15;
}
让我们仔细看看这个函数作为在 CPU 上执行的软件和作为 FPGA 上的自定义硬件函数的性能。首先,考虑用于在 CPU 上执行此功能的能量。典型的小型 CPU 将由以下功能硬件块组成:
- 1.取指令
- 2.指令解码
- 3. 内存参数获取
- 4.执行指令
- 5. 写回结果
其中前两个被 FPGA 功能完全消除。这些纯粹是 CPU 模型所需的解释开销。3 号和 4 号专用于中央存储器模型所需的数据移动。FPGA 通常不需要外部存储器,这将再次完全消除开销。4 号是 CPU 中唯一实际执行特定应用功能的部分。然而,所有这些单元在整个程序执行过程中都在不断地消耗能量。此外,外部存储器也消耗大量电力。
执行时间呢?让我们估计一下在小型 CPU 上执行可能需要的周期数:
- 将 x 加载到寄存器中(2 个周期)
- 将第一个常数加载到寄存器中(1 个周期)
- 乘法(1 个周期)
- 将第二个常数加载到寄存器中(1 个周期)
- 添加(1个周期)
- 将结果存储到内存(2 个周期)
总共8个周期!当然,对于具有更大指令集和更复杂指令的 CPU,您可能可以使用更少的指令,但这些通常需要更多的周期。因此,假设 4-8 个周期。
现在对于 FPGA 实现,我们有一个执行乘法和加法的单周期电路。这就像有一个专门为这个应用程序构建的自定义指令。值通过寄存器传递,没有内存访问。CPU 有时可以利用寄存器来传递值,但通常只有少数可用。此外,许多函数需要堆栈内存来存储局部变量和临时值。
不服气?让我们稍微扩展第一个例子来解决一个现实世界的问题,看看它是如何比较的。
机器学习分类示例
分类是机器学习执行的一项非常常见的任务。分类任务是根据您拥有的一些数据将某事物分类为 2 个或更多类。例如,根据附在风扇上的一些振动传感器数据,将其分类为工作或不工作(电机故障/螺旋桨卡住)。
让我们根据两个测量值将一些数据简单地分类为两个类别。下图显示了许多具有已知类别的对象的测量数据。
每个点代表一个示例对象的两个测量值,颜色代表该对象的已知类别。目标是,根据一个新对象的两个值(x,y),预测它是在橙色类还是蓝色类中。从图中可以看出,橙色的类对象都在绿线和蓝线的左侧。蓝色类对象都在一条或两条线的右侧。
让我们实现一个简单的预测函数,它只测试一个新点是否在两条线的左侧:
此代码也可从 git repo 获得:文件夹中的https://github.com/sathibault/hac-examples.git 。poly-classify
继续classify
在您的计算机和 FPGA 板上构建和测试此功能(如果您需要查看它是如何完成的,请返回第 II 部分)。您应该看到如下输出:
poly-classify>.\program
classify(7, 82) = 1
classify(5, 100) = 1
classify(10, 70) = 0
classify(15, 100) = 0
输出 1 表示该点位于两条线的左侧,预测的类为橙色。否则,预测类别为蓝色。
我选择这个例子是因为它很容易解释,并且非常代表当今使用的非常成功的神经网络所需的计算。
指令级并行
除了消除中央内存瓶颈和 CPU 的解释开销外,定制硬件还支持高级别的指令级并行性。对于第二个示例,为classify
函数生成的硬件如下所示:
如您所见,每个方程都有自己专用的乘法器和加法器。尽管相对于第一个示例,我们所做的工作量增加了四倍,但整个函数仍然在一个周期内执行!通常对应于 CPU 上的许多指令并按顺序执行的功能可以并行执行。试着估计一下我的指令/周期这个函数在 CPU 上需要多少。
我真的在强调 CPU 方法的负面影响,但对于 FPGA 来说,这并不全是玫瑰。我们可以在速度和功耗方面取得一些显着的进步,但缺点是它占用了物理空间。上图中的每个模块都占用了 FPGA 上的空间。随着函数的增长,它将占用的空间量也会增加,并且可用的空间有限。虽然空间也可能是微控制器程序存储器的一个问题,但 FPGA 的空间限制通常更加有限。我们将在下一期中更详细地研究空间使用情况。
下一步
到目前为止,我们一直在研究简单的直线代码示例。下一次,我们将看看循环和数组的使用。
连接
在我发布新的分期付款时,请关注我以保持最新状态。还有一个 Discord 服务器(公共聊天平台),用于您在https://discord.gg/3sA7FHayGH上可能有的任何评论、问题或讨论
- 用于高频接收器和发射器的锁相环——第三部分
- SensorTile.box第三部分:编程模式(Pro mode)介绍
- 硬件即代码第五部分:FPGA内部
- 硬件即代码第四部分:嵌入式RAM
- 用于激活设备的可编程定时器-第三部分
- 《基于运算放大器和模拟集成电路的电路设计》第三版 0次下载
- LTC2387驱动程序第三部分
- 接地和去耦:现在就开始学习基础知识, 为日后铺平道路!第三部分:去耦续篇资料下载
- 《电动汽车传导充电系统》国家标准第三部分直流充电接口资料免费下载 34次下载
- 2012年PSoC数模混合设计培训_第三部分 8次下载
- MATLAB信号处理详解_部分3 10次下载
- 开关电源设计(第3版)第三部分 0次下载
- 嵌入式系统硬件与软件架构(英文版) 0次下载
- ADC和DAC基础 (共五部分,完整版) 0次下载
- 《电子电气产品中六价铬的测定 第三部分:二苯碳酰二肼分光光度
- 连接器电镀的问题解答 548次阅读
- 如何利用相位噪声分析程序和传递函数来降低锁相环的输出相位噪声? 1333次阅读
- INGCHIPS BLE芯片如何获得最大吞吐量 684次阅读
- 什么是机器学习 386次阅读
- 交流电压信号调理电路分析 2402次阅读
- 射频功率的测量和控制(第三部分) 1024次阅读
- 为数字通信系统选择混合信号元件IV:接收器架构注意事项 717次阅读
- 什么是控制系统以及如何设计DC-DC转换器的控制回路 1979次阅读
- 实时数据体系建设的总体方案的三部分 6598次阅读
- 光敏电阻型号命名方法 4426次阅读
- 单片机中PWM的工作原理解析 3.2w次阅读
- 关于人工智能领域最新的报告分析 4701次阅读
- ECAD/ MCAD协同对PCB的作用及发展 5457次阅读
- 从充电基础设施建设状况、充电费用和充电方式三部分来简要介绍 6995次阅读
- Google Dremel数据模型讲解 4152次阅读
下载排行
本周
- 1山景DSP芯片AP8248A2数据手册
- 1.06 MB | 532次下载 | 免费
- 2RK3399完整板原理图(支持平板,盒子VR)
- 3.28 MB | 339次下载 | 免费
- 3TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 4DFM软件使用教程
- 0.84 MB | 295次下载 | 免费
- 5元宇宙深度解析—未来的未来-风口还是泡沫
- 6.40 MB | 227次下载 | 免费
- 6迪文DGUS开发指南
- 31.67 MB | 194次下载 | 免费
- 7元宇宙底层硬件系列报告
- 13.42 MB | 182次下载 | 免费
- 8FP5207XR-G1中文应用手册
- 1.09 MB | 178次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191187次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论
查看更多