硬件除法专题-SRT除法
硬件除法专题-SRT除法
本文提到的算法在 Github 开源:https://github.com/devindang/openip-hdl
该算法的设计文件也在此CPU设计中应用:https://github.com/devindang/dv-cpu-rv
概述
计算机中使用的硬件除法主要分为两大类:慢速除法和快速除法。
慢速除法在每次循环中只产生商和余数的一位,这类算法例如:恢复除法,非恢复除法,SRT除法。
而快速除法在每次循环中可能产生商或者余数的多位,例如:Newron-Raphson除法,Goldschmidt除法。
一些处理器及其使用的算法如下[1]:
Processor | Division Algorithm | Connectivity |
---|---|---|
DEC 21164 Alpha AXP | SRT | Adder-Coupled |
Hal Sparc64 | SRT | Independent |
HP PA7200 | SRT | Independent |
HP PA8000 | SRT | Multiplier-accumulate-c/p |
IBM RS/6000 Power2 | Newton-Raphson | Integrated |
Intel Pentium | SRT | Adder-coupled |
Intel Pentium Pro | SRT | Independent |
Mips R8000 | Multiplicative | Integrated |
Mips R10000 | SRT | Multiplier-coupled |
PowerPc 604 | SRT | Integrated |
PowerPc 620 | SRT | Integrated |
Sun SuperSparc | Goldschmidt | Multiplier-integrated |
Sun UltraSparc | SRT | Independent |
下面的讨论以
- N = numerator (dividend),分子,被除数
- D = denominator (divisor),分母,除数
- Q = quotient,商
- R = Remainder,余数
循环相减
下面给出循环相减的伪代码,来自维基百科[2]:
R := N
Q := 0
while R ≥ D do
R := R − D
Q := Q + 1
end
return (Q,R)
长除法(纸笔算法)
也叫,Paper-Pencil Division,伪代码如下:
if D = 0 then error(DivisionByZeroException) end
Q := 0 -- Initialize quotient and remainder to zero
R := 0
for i := n − 1 .. 0 do -- Where n is number of bits in N
R := R << 1 -- Left-shift R by 1 bit
R(0) := N(i) -- Set the least-significant bit of R equal to bit i of the numerator
if R ≥ D then
R := R − D
Q(i) := 1
end
end
慢速算法
慢速算法通过循环等式,对余数R进行迭代:
其中,
是第 j 个部分余数- B 是基,在基2算法中,为2
是商的第 位,例如第1次迭代(j=0)产生 ,商的最高位- n 是商的位数
- D 是除数
其中:
注意,R 和 D 均须左移 n 位,在运算前,需要把 D 左移,得到结果时把 R 右移。
恢复除法
恢复除法在迭代过程中选择
R := N
D := D << n -- R and D need twice the word width of N and Q
for i := n − 1 .. 0 do -- For example 31..0 for 32 bits
R := 2 * R − D -- Trial subtraction from shifted value (multiplication by 2 is a shift in binary representation)
if R >= 0 then
q(i) := 1 -- Result-bit 1
else
q(i) := 0 -- Result-bit 0
R := R + D -- New partial remainder is (restored) shifted value
end
end
-- Where: N = numerator, D = denominator, n = #bits, R = partial remainder, q(i) = bit #i of quotient
以 13/5 = (2,3) 为例,
0. R := N = 13 = 00001101, D := D << 4 = 01010000
1. i=3, R = 00011010 - 01010000, q(3)=0, R = 00011010 (restored)
2. i=2, R = 00110100 - 01010000, q(2)=0, R = 00110100 (restored)
3. i=1, R = 01101000 - 01010000, q(1)=1
4. i=0, R = 00110000 - 01010000, q(0)=0, R = 00110000 => R=0011=3, Q=0010=2
非恢复除法
非恢复除法使用数集 {-1,1},计算过程中额外的恢复运算。在这种算法下,每一位数字的基是 {-1,1} 而非 {0,1},例如
R := N
D := D << n -- R and D need twice the word width of N and Q
for i = n − 1 .. 0 do -- for example 31..0 for 32 bits
if R >= 0 then
q(i) := +1
R := 2 * R − D
else
q(i) := −1
R := 2 * R + D
end if
end
-- Note: N=numerator, D=denominator, n=#bits, R=partial remainder, q(i)=bit #i of quotient.
由于得到的结果是非标准形式,因此需要在最后一步进行转换,转换方法如下:
- Start:
- Form the positive term:
, - Mask the negative term*:
- Subtract: P-M:
*.( Signed binary notation with one's complement without two's complement)
这样最终算得的余数 R 介于 -D 到 D,例如 5/2=3R-1,如果要得到正数的余数,在转换之后执行以下步骤:
if R < 0 then
Q := Q − 1
R := R + D -- Needed only if the remainder is of interest.
end if
SRT 除法
SRT 除法与非恢复除法类似,但它使用基于被除数和除数的查找表来确定每个商位。它和非恢复除法最显著的区别是,商使用了冗余表示。 例如,在实现基 4 SRT 除法时,每个商位都是从五种可能性中选择的:{ −2, −1, 0, +1, +2 }。 因此,商数的选择不必是完美的; 后面的商数字可以纠正轻微的错误。 (例如,商数字对 (0, +2) 和 (1, −2) 是等价的,因为 0×4+2 = 1×4−2。),这种冗余度允许仅使用少数几个被除数和除数的 MSB 数字来选择商位的数字,而不需要全位宽的减法。这种简化方法允许使用大于 2 的基数。
与非恢复除法一样,最后的步骤是最终的全位宽减法以解析最后一个商位,并将商转换为标准二进制形式。
SRT除法相比与非恢复除法不同点如下:
- 对 divisor 进行归一化,简化运算流程,缩小硬件实现面积,在SRT的第一步进行;
- 商位的选择使用冗余表示,允许仅使用少数几位来选择,无需使用全位宽的减法,这一过程通常由 QDS (quotient digit selection) 查找表实现;
- 由于使用冗余表示,需要对结果进行转换,通常使用on-the-fly conversion进行实时的转换,而不用浪费额外的时钟周期;
- divisor 归一化会对计算得到的 quotient 和remainder 值造成影响,同时 remainder 可能是负数,需要进一步处理。
这些变化您将在后续的阐述中得到更为详尽的认识。
基2-SRT除法
基2-SRT除法中,数集为
基本步骤如下:
- divisor 归一化:将 divisor 归一化至
,同时记录移位的个数 m,将dividend归一化至 , 同时记录移位个数n; - 商位选择:根据“剩余余数”(部分余数),做简单的移位,然后与 1/2 做对比选择商位 (非恢复除法中是与 D 做对比,SRT 算法将 D 归一化,简化了这一流程),在基2-SRT中,QDS 查找表比较简单,可以直接做判断实现;
- 迭代计算:根据选择的商位对余数做迭代运算,总的迭代次数为m-n;
- 实时转换 (on-the-fly conversion):根据实时转换算法,对 Remainder 和 Quotient 的值做实时转换,将迭代中使用的冗余形式转换为2进制补码形式;
- 后处理:根据移位个数 m 对商值以及余数进行调整,例如,对于无符号运算,同时如果余数为负数,需要对余数加上 D,同时商值减去 ulp (unit of least precision, 通常是1)。
这里不再提供伪代码,一来是维基百科上没有,不能保证权威性,二来是过程比较复杂,不能用简单的数值运算表示。
在SRT算法中,第一步是归一化除数和被除数,这加速了循环的过程,总的迭代次数也在这一步中被确定。
让我们看一个例子,计算11/3=(3,2),除数和被除数都是8比特,8'd11=00001011, 8'd3=00000011.
被除数11有4个前导0,而除数有6个前导0,我们将除数移位5比特得到0.110000,将被除数移位1比特得到0.0010110. 总的迭代次数是5-1=4。也就是除数的移位数减去被除数的移位数。如果除数的移位数小于被除数的移位数,这意味着被除数小于除数,也就不需要进行迭代了。
但是这样的迭代公式有一个缺点,每次确定商位的时候,使用
归一化把 D 限制在
这是SRT算法商位选择的规则,它相比于非恢复除法,数集中多了 "0",减少了加法和减法的次数。
对应的循环公式为:
这里给出了以上例子的迭代步骤。
由于商的结果没有-1作为商位,所以也无需额外转换成标准形式。但是,注意余数是负数,这不是我们想要的,因此我们需要给r4加上D,并且给商值减去1:
不要忘记了给R右移m位,在这个例子中是5,我们因此得到了00000010(8'd2)作为最终的余数,00000011(8'd3)作为最终的商。
对于有符号的情况,商位的选择有所不同,但是遵循以下规则:
基4-SRT除法
基4-SRT除法与基2-SRT除法相比,不同之处如下:
- 归一化的区别;
- 数集的变动,
通常是基4算法使用的数集,但不是唯一的; - 商位的选择更加复杂,通常使用更复杂的 QDS 查找表实现;
- On-the-fly 转换算法更加复杂;
基4的SRT算法使用每2比特进行迭代,迭代的次数同样由移位的比特来确定。使用m表示除数移位的比特,n表示被除数移位的比特,在基2算法中,总的迭代次数是m-n,但是在基4算法中,总的迭代次数是(m-n)/2,并且,m和n必须同样是偶数或者同样是奇数,否则会对迭代过程造成影响。
假设被除数是23,除数是5,这是一个无符号的例子,移位的情况如下:
其中n=0,他和基2的情况不同,在基2中,我们会选择n=1作为移位数。同时,剩余余数还需要进行符号位扩展,如果上一个剩余余数比1/4大,也就是0.01xxxx,
基4-SRT算法的商位选择相比于基2算法来说更为复杂,一个很大的QDS表(Quotient Digit Selection)被用来确定商值。让我们来讨论选择的规则,同时构建QDS表用于RTL实现。
在基4-SRT算法中,我们选择的数集是{-2,-1,0,1,2},这意味着冗余度是
我们使用P来表示部分余数
画出P和D之间的关系,这个图被叫做PD图,x和y坐标均是QDS表的输入,商值是唯一输出。
由此,我们可以构建以下的QDS表,多亏了归一化,我们可以仅仅检查少数几个比特来确定商值!
在这个PD图中,商值的选择与它左下角的坐标的是相关联的,例如,D=0.1010,P=00.011,我们应该选择1作为商值,然而如果D=0.1010,P=00.010,我们应该选择0。
图中标注了“0 or 1”或者“1 or 2”的意味着该处的商值可以选择0也可以选择1,粗实线是一种选择方案,这种选择方案允许更多的0和1,更少的2,简化了运算流程。
当我们得到了想要的商值之后,就可以继续迭代了,迭代过程如下:
商值的选择由QDS表中选择,而非简单的与1/2做对比。在第一个循环中,P的索引是00.101,D的索引是0.1010,因此我们选择1作为商值,同时使用D去减4r0,得到r1。
把最后的商值转换为标准形式:
基4中的11是基2中的0101,这里没有负数项,无需做减法。
本节结束了?我们还没有谈论负数的情况。考虑23/-5=(-4,3),
我们改怎么选择商值呢?首先,需要把D转换为正数(原码)的形式,0.1010,然后使用负数的QDS表进行查表。
与正数的QDS表不同,我们不再选择左下角的点,而是左上角的点,与商值相关联,例如,如果D=0.1010, P=11.101,我们应该选择-1作为商值。在正数的情况下,我们选择了1.
以下的例子是23/-5=(-4,3),过程和无符号的SRT算法类似。
需要注意的是,因为除数是负数,在后处理过程中,q应该加上1,R应该减去D(负数)。
以下的例子是-23/5=(-5,2):
注意,余数的符号没有明确的定义,例如,-29/-26,在Matlab中,得到-3作为余数,它保持余数和被除数具有相同的符号;而在python中,余数与除数的符号相同,在某些场合下,余数总是正的。在改实现中,余数总是正值,程序会给出的余数值是23,因为-26*2+23=-29.
On-the-fly转换[3]
由于冗余数集存在负数,商的表示并非标准形式,我们需要把非标准形式的商在算法的最后一步转换为标准形式。但是它需要耗费额外的延迟以及芯片面积:对于减法操作,全位宽的进位加法器是必须的,如果使用行波进位加法器,延迟将会大到N,如果使用超前进位加法器,需要牺牲芯片的面积。
On-the-fly转换是为了获得实时的转换结果而设计的,它仅仅使用2个Flip-Flop和一些简单的组合逻辑就可以完成转换过程。
Q的实际值可以表示为以下形式:
该更新公式有一个缺点,需要做减法,进位的传播会使电路变得很慢,因此我们定义另一个寄存器
减法操作可以被替换为对寄存器 QM 进行采样,QM可以通过以下公式进行更新:
项
它的硬件实现流程图由下图描述:
初始化条件为:
我们可以简单的根据除数和被除数的符号来推断商的符号:如果被除数和除数具有相反的符号,我们就把Q和QM初始化为全1,否则就初始化为全0。
SHIFT_IN的数值产生(拼接的部分)可以简单的通过真值表来推断,对于基4的情况(基2的情况更简单):
这里也给出了一个基2情况下转换的例子,它把1101(-1)00转换为1100100,也就是1101000-00000100。
0 | 0 | 0 | |
1 | 1 | 0.1 | 0.0 |
2 | 1 | 0.11 | 0.10 |
3 | 0 | 0.110 | 0.101 |
4 | 1 | 0.1101 | 0.1100 |
5 | -1 | 0.11001 | 0.11000 |
6 | 0 | 0.110010 | 0.110001 |
7 | 0 | 0.1100100 | 0.1100011 |
本文的内容大部分参考自[4] Koren, Israel. "Computer arithmetic algorithms". 请以原书为准。
写在后面
完整的代码均在 Github 开源,包括完整的 testbench 文件,以及 modelsim 或者 vcs+verdi 的脚本,您可以一键运行仿真来学习 SRT 算法,为中国的芯片行业以及开源事业贡献一份绵薄的力量!
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】博客园携手 AI 驱动开发工具商 Chat2DB 推出联合终身会员
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何做好软件架构师
· 记录一次线上服务OOM排查
· Linux实时系统Xenomai宕机问题的深度定位过程
· 记一次 .NET某汗液测试机系统 崩溃分析
· 深度解析Mamba与状态空间模型:一图带你轻松入门
· 如何做好软件架构师
· SQL优化的这15招,真香!
· 将 EasySQLite 从 .NET 8 升级到 .NET 9
· [.NET] 单位转换实践:深入解析 Units.NET
· C#+ WPF 实现蓝牙转WIFI计步上位机