0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数学运算在FPGA中的实现方式

FPGA设计论坛 来源:FPGA设计论坛 作者:FPGA设计论坛 2022-10-31 14:48 次阅读

一、前言

FPGA以擅长高速并行数据处理而闻名,从有线/无线通信到图像处理中各种DSP算法,再到现今火爆的AI应用,都离不开卷积、滤波、变换等基本的数学运算。但由于FPGA的硬件结构和开发特性使得其对很多算法不友好,之前本人零散地总结和转载了些基本的数学运算在FPGA中的实现方式,今天做一个系统的总结归纳。

二、FPGA中的加减乘除

1.硬件资源

Xilinx 7系列的FPGA中有DSP Slice ,叫做“DSP48E1”这一专用硬件资源,这是一个功能强大的计算单元,单就用于基本运算的部分有加减单元和乘法器。详见参考文献1.

e05f2f74-58d4-11ed-a3b6-dac502259ad0.png

因此可以直接用HDL语言中的加、减、乘符号实现变量与常量间运算操作以及变量与变量间操作。而四则运算中的除法没有基本的逻辑计算单元可以对应,因此计算除法需要调用除法器IP核。

2.确认数据的表示范围

有符号数:(补码)-2^(N-1) ~ 2^(N-1)-1 如N = 8,则表示范围是:-128 ~ 127.

无符号数:0~2^N-1 如N = 8,则表示范围是:0~255.

定点数:2Q13 范围是:-4~4-2^(-13) 精度是:2^(-13)

3.结果有效位宽

首先讨论结果位宽问题。在FPGA中往往采用定点运算替代浮点运算来降低硬件资源占用率和计算延迟,其中的精髓就是精度与资源的权衡。若按照保留计算结果的全部精度,N bit数与Mbit数相加结果需要N+1bit(N>M)。N bit数与M bit数相乘之积需要N+M bit。而减法可以转化为加法,除法则转换为乘法和加减法的组合。如果操作数是定点小数,则在满足以上准则的前提下,A与B相加(A小数点位数>B小数点位数),结果小数点位数与A相同;A与B相乘(小数点位数分别为p和q),结果小数点位数是p+q。

4.定点运算步骤

然而(话锋一转),在大多数场合下,不需要以上这么多位来保留计算结果,因为我们在进行数学运算时,已经知道输入数据的大致范围,一个数除以1000和除以1结果数据所需最小位宽能一样么?加减运算的操作步骤是先对齐小数点位数,后加减。而乘法是先计算后取小数点。这实际上与十进制运算一致,我们看看具体的计算步骤:

整数之间加减以及乘法的统一步骤:预估结果位宽N --> 按照结果位宽扩展操作数符号位以防止溢出 --> 运算取低N位。

定点小数加减运算步骤:预估结果位宽N --> 得到结果小数点后位数 --> 对齐操作数整数位和小数位,确定扩展位宽M(M≥N) --> 加减运算取低M位。

定点小数乘法运算步骤:预估结果位宽N --> 得到结果小数点后位数 --> 扩展操作数位宽 --> 相乘取低N位

变量与常量运算化简

以上讨论的均是两变量之间的运算规则,当然结果位宽及格式准则是适用的。变量与常量的运算的优势在于,可以将乘除法转换成加减以及移位运算实现,从而降低计算复杂度和延迟。当常数项C为2的整数次幂(C = 2^p),则乘C等于变量左移p位,除以C等于变量右移p位。几个在书中看到的几个简单示例:A16 = A <<4  A20 = A<<4 + A<<2.  A除以2 = A >>1A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法完全等价对应的移位相加操作,而除法的移位代替会损失精度。

三、如何计算特殊函数

FPGA内部的DSP Slice可以直接进行最基本的加法和乘法运算,但是对于其他比如对数、指数、三角函数、开根号等特殊函数就无能为力了。这时需要借助算法对这些特殊函数进行变换和简化。FPGA实现复杂函数的常用手段一个是级数展开,再一个就是CORDIC算法。关于CORDIC的理论知识和具体内容详见参考文献2,这里主要阐述CORDIC的IP核调用以及应用示例。CORDIC算法就是通过一定的手段,将很多复杂的特殊函数变为相加移位运算,这一点对于硬件芯片实现来说非常友好。CORDIC分为旋转模式和矢量模式,配合圆周坐标、线性坐标和双曲线坐标会有六种组合,具体见下表:
e081e92e-58d4-11ed-a3b6-dac502259ad0.png

从表中发现,基本的乘除法、三角函数、反三角函数、双曲函数、反双曲函数、开根号都能够直接求得,那其他函数怎么办?

e0bbe1f6-58d4-11ed-a3b6-dac502259ad0.png

常见的函数计算需求基本都能满足,虽上述变换式对自变量定义域有限制,但同样可以分析输入数据的取值范围并利用简单的数学变换得到想要的结果。Xilinx同时提供了浮点IP核以及CORDIC IP核,前者调用简单但占用资源大,延迟高,因此利用CORDIC算法计算函数是个较好的选择。

四、CORDIC计算e^x Demo

算法仿真分析

要计算ex数值需要让CORDIC工作在双曲坐标的旋转模式下,通过ex = sinhx+coshx关系式间接求得。首先看下sinh和cosh函数的曲线,有个直观认识。
e0e32a36-58d4-11ed-a3b6-dac502259ad0.png
e100147a-58d4-11ed-a3b6-dac502259ad0.png

我们用MATLAB毫不费力地验证一下公式正确性:
e12678ae-58d4-11ed-a3b6-dac502259ad0.png

在设计后也同样要借助MATLAB进行仿真验证。

CORDIC IP核

现在通过查看user guide得知CORDIC IP核的接口及主要特性。

e15259c4-58d4-11ed-a3b6-dac502259ad0.png

接口包括输入笛卡尔数据输入通道、相位输入通道、全局信号以及数据输出通道。该IP核有两种结构:串行和并行,可根据数据吞吐量需求选择,并行结构可以每个时钟输出一个计算结果。如果计算sinh和cosh,要向phase通道输入相位信息,X_OUT是cosh(phase),Y_OUT是sinh(phase).输入phase必须满足数据范围,否则出现不可预计结果。输出帧结构及数据范围如下:

e1758a5c-58d4-11ed-a3b6-dac502259ad0.png

其中输入数据格式为2QN,输出则是1QN。由于均是有符号数,也就是输入整数部分3bit,输出整数部分2bit。接下来对IP核进行配置,重点是第一页,此处将其配置为计算sinh和cosh模式,采用并行优化的流水线结构。相位以角度为单位,输入输出位宽设置成16bit。
e193d714-58d4-11ed-a3b6-dac502259ad0.png

3.HDL代码设计及仿真验证

设计代码:

1 `timescale 1ns / 1ps
2
3 module cordic_ex#(parameter DIN_W = 16,
4 DOUT_W = 16)
5 (
6 input clk,
7 input [DIN_W-1:0] din,//2Q13
8 input din_vld,
9
10 output reg [DOUT_W+1-1:0] dout = 0,//2Q14
11 output reg dout_vld = 0
12 );
13
14
15 wire [DOUT_W2-1 : 0] m_axis_dout_tdata;
16 wire m_axis_dout_tvalid;
17 wire signed [DOUT_W-1:0] sinh,cosh;
18
19 // ex = sinhx + coshx <1Q14+1Q14 = 2Q14>
20 always @(posedge clk)begin
21 dout <= sinh + cosh;
22 end
23
24 assign sinh = m_axis_dout_tdata[DOUT_W2-1 -:DOUT_W];
25 assign cosh = m_axis_dout_tdata[DOUT_W-1 -:DOUT_W];
26
27 always @(posedge clk)begin
28 if(m_axis_dout_tvalid)begin
29 dout_vld <= 1’b1;
30 end
31 else
32 dout_vld <= 0;
33 end
34
35 cordic_0 cordic_cosh_sinh (
36 .aclk(clk), // input wire aclk
37 .s_axis_phase_tvalid(din_vld), // input wire s_axis_phase_tvalid
38 .s_axis_phase_tdata(din), // input wire [15 : 0] s_axis_phase_tdata
39 .m_axis_dout_tvalid(m_axis_dout_tvalid), // output wire m_axis_dout_tvalid
40 .m_axis_dout_tdata(m_axis_dout_tdata) // output wire [31 : 0] m_axis_dout_tdata
41 );
42
43 endmodule
cordic_ex
用MATLAB产生两组数据,并将角度值定点化后作为设计模块数据激励:

testbench:

1 `timescale 1ns / 1ps
2
3 module cordic_ex_tb();
4
5 parameter CYC = 20;
6
7 reg clk;
8 reg [16-1:0] din;
9 reg din_vld;
10
11 wire signed [17-1:0] dout;
12 wire dout_vld;
13
14 cordic_ex#(.DIN_W(16),
15 .DOUT_W(16))
16 uut(
17 .clk (clk) ,
18 .din (din) ,//2Q13
19 .din_vld (din_vld) ,
20 .dout (dout) ,//2Q14
21 .dout_vld (dout_vld)
22 );
23
24 initial begin
25 clk = 1;
26 forever #(CYC/2) clk = ~clk;
27 end
28
29 initial begin
30 #1;
31 din = 0;
32 din_vld = 0;
33 #(CYC10);
34
35 din_vld = 1;
36 din = 16’b0001010000011011;//pi * 1/5
37 #(CYC1);
38 din = 16’b1110011011011110;//-pi * 1/4
39 #5;
40 $stop;
41 end
42
43 endmodule
cordic_ex_tb
仿真结果:
e1e2004c-58d4-11ed-a3b6-dac502259ad0.png

仿真波形表明,计算结果与MATLAB浮点运算相近,满足一般计算需求。若想提高精度,可以增加CORDIC输出数据位宽。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1628

    文章

    21699

    浏览量

    602597
  • 无线通信
    +关注

    关注

    58

    文章

    4544

    浏览量

    143468
  • 硬件
    +关注

    关注

    11

    文章

    3287

    浏览量

    66170

原文标题:深度学习FPGA实现数据计算

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    鼎阳示波器功能之数学运算

    示波器参数测量,3种方式进行了讲解,本次,博宇讯铭讲解:鼎阳示波器功能之数学运算。让我们一起来学习一下吧。数学运算概述运算的算子包括:加法(+)、减法(-)、乘法(*)、除法(/)、恒
    发表于 05-10 13:37

    如何在GCC为具有FPU的Cortex M4启用硬件浮点数学运算呢?

    如何在GCC为具有FPU的Cortex M4启用硬件浮点数学运算呢?
    发表于 08-26 14:43

    基本数学运算库VHDL代码

    包括各种用VHDL语言描述的基本数学运算单元,瑞典联邦威廉希尔官方网站 研究院(ETH)提供
    发表于 05-20 11:12 30次下载

    基本数学运算库 -包括各种用VHDL语言描述的基本数学运算

    基本数学运算库 包括各种用VHDL语言描述的基本数学运算单元 VHDL Library of Arithmetic Units, Version 1.0=============================== Installation:   1) U
    发表于 06-14 09:25 45次下载

    GE FANUC PLC的数学运算功能

    GE FANUC PLC 提供以下数学运算功能:一、四则运算和求余四则运算的梯形图及语法基本类似现,以加法指令为例:梯形图:注释:1.在I1 端为被加数,I2 端为加数,Q
    发表于 11-14 10:51 24次下载

    CCS及DSP基本数学运算实验

    CCS及DSP基本数学运算实验 在DSP编程过程,数以二进制,十进制,与十六制表示均可.在定点DSP的运算...在CCS使用及DSP的基本数学运算的实验
    发表于 04-06 14:10 50次下载

    乘除法和开方运算FPGA串行实现

    高精度的乘除法和开方等数学运算在FPGA实现往往要消耗大量专用乘法器和逻辑资源。在资源敏感而计算时延要求较低的应用,以处理时间换取资源的
    发表于 07-28 18:05 37次下载

    基于GPU的数学形态学运算并行加速研究

    数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基
    发表于 10-25 16:55 55次下载
    基于GPU的<b class='flag-5'>数学</b>形态<b class='flag-5'>学运算</b>并行加速研究

    改进的形态学运算在声纳图像生成的应用_李莉

    改进的形态学运算在声纳图像生成的应用_李莉
    发表于 03-19 11:30 1次下载

    简单的数学运算计算数学函数的方法CORDIC的详细资料概述

    CORDIC是在一个称为二进制搜索的循环中使用更简单的数学运算来计算数学函数的方法。最常用的CORDIC用于计算AtAN2(角度)和点的斜边(距离)。CORDIC还可以用来计算其他数学函数,如Sin和CoS。
    发表于 05-31 11:18 12次下载
    简单的<b class='flag-5'>数学运算计算数学</b>函数的方法CORDIC的详细资料概述

    FPGA浮点运算定标实现方法

    有些FPGA是不能直接对浮点数进行操作的,只能采用定点数进行数值运算。对于FPGA而言,参与数学运算的书就是16位的整型数,但如果
    的头像 发表于 08-12 09:53 4830次阅读

    Python中常见的数学运算方法

    Python 是一种面向对象、解释型、交互式的高级编程语言。它支持各种数学运算,包括基本算术运算、比较运算、逻辑运算等。
    的头像 发表于 04-21 16:51 5593次阅读

    如何在FPGA中进行简单和复杂的数学运算

    由于FPGA可以对算法进行并行化,所以FPGA 非常适合在可编程逻辑实现数学运算
    发表于 05-15 11:29 3092次阅读
    如何在<b class='flag-5'>FPGA</b>中进行简单和复杂的<b class='flag-5'>数学运算</b>?

    利用FPGA进行基本运算及特殊函数定点运算

    的硬件结构和开发特性使得其对很多算法不友好,之前本人零散地总结和转载了些基本的数学运算在FPGA实现方式,今天做一个系统的总结归纳。 二
    的头像 发表于 07-19 14:25 1848次阅读
    利用<b class='flag-5'>FPGA</b>进行基本<b class='flag-5'>运算</b>及特殊函数定点<b class='flag-5'>运算</b>

    C语言中关于数学运算的相关知识

    数学运算的主要目的是进行数值计算,这其实可以衍生出很多应用,如模数/数模转换、数据处理、寻址、控制算法实现等。
    的头像 发表于 11-08 10:04 746次阅读
    C语言中关于<b class='flag-5'>数学运算</b>的相关知识