定点数和浮点数【1】
看这个问题时,我通过查找发现了比较清楚的两篇文章:
什么是定点数、浮点数?
首先我们要认清一个概念,定点数不一定是整数,浮点数不一定是小数。
如其名,浮点数和定点数的区别就在于浮点和定点上,点就是指小数点。浮点数就是小数点是浮动的,定点数就是小数点是固定不动的。
具体,什么是浮点数?
浮点数是在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。
一个浮点数a由两个数m和e来表示:a = m × b^e。在任意一个这样的系统中,我们选择一个基数b(记数系统的基)和精度p(即使用多少位来存储)。m(即尾数)是形如±d.ddd...ddd的p 位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作规格化的。有一些描述使用一个单独的符号位(s 代表+或者-)来表示正负,这样m必须是正的。e是指数。对于一些外文资料中,指数即:exponent,尾数即:mantissa。
在IEEE 754中,定义了两种浮点数,即我们熟悉的float和double型。如图所示。对于float型的浮点数来说,最高一位是符号位,不用说了,1为负 号,0为正。紧跟着指数位是8位,尾数是23位。由于尾数是规格化的,最高一位肯定非零,并且最高一位隐藏。所以对于尾数来说,实际上可以有 23+1=24位。
比如说,如果mantissa为010,exponent为3,s为0,则尾数实际上是1.010,因此这个数是(二进制)+1.010*2^3=1010b,运算为(1×2^1+0*2^-1+1*2^-2)*2^3,即为十进制10.0。
Double的位数说明类似于float。
什么是定点数?
我们在上述的浮点数中可以看到,浮点的小数位是可变的(随exponent变化),因此浮点数可表达的小数范围非常广。但浮点数运算量非常大(从它的定义上就知道了)。并且在目前市场占有量最大的定点DSP并不支持浮点运算。
因此,定点数应运而生。定点数就是指在一个数中,整数部分和小数部分位数固定。比如,我们定点数总共32位,其中小数占低13位:
typedef int fix_t;
#define FIX_FRACBITS 13
如何将一个int型的整数转化为定点数?
Int类型转定点数最简单。上面的定义,小数位占低13位。
#define INTTOFIX(fix_t, fracbits, x) fix_t((x) << (fracbits))
即我们只需要将x左移就行了,当然要注意,如果x本身超过了整数部分的最大位数,则会产生溢出。
如何将一个double型小数转化为定点数?
浮点数转为定点数与int型转为定点数类似,比如说1.1101,转为有13位小数的定点数就是1 1 1010 0000 0000,也就是1.1101*2^13。
当然,在int型转定点时,我们使用了逻辑运算,而不是直接乘以2^13,是因为逻辑运算的速度一般比算术运算快几十倍。但是逻辑左移并不能运用于小数,double转定点时于是只能用算术乘法了。
下面是double转定点:
#define DBLTOFIX(fix_t, fracbits, x) \
fix_t(((x) * (double)((fix_t)(1) << (fracbits)))) )
定点数直接如何相加?
很简单,如下。如下,下面的宏定义的定点数相加没有考虑到数据溢出的问题,如果当x和y同号并且两数足够大时,是会产生数据位溢出的。在具体编程实现时要特别注意。
#define FIX_ADD(fix_t, fracbits, x, y) ((x) + (y))
定点数如何相乘?
乘法更容易产生数据位溢出的问题,因此,如果我们运算时就要特别小心。同样,也是没有考虑到数据溢出的问题。
Typedef _int64 fixbig_t;
#define FIX_MUL(fix_t, fracbits, bigfix_t, x, y) \
Fix_t((bigfix_t(x) * bigfix_t(y)) >> (fracbits))
定点数如何实现除法?
如下式所示,我们把移位放到被除数那里,是因为这样的处理基本上不会产生下溢出,提高了精度。
#define JAS_FIX_DIV_FAST(fix_t, fracbits, bigfix_t, x, y) \
JAS_CAST(fix_t, (JAS_CAST(bigfix_t, x) << (fracbits)) / (y))