程序员数学之-IEEE754规范

1 定点数与浮点数

在现实生活中，不仅要有整数，还需要小数，计算机怎么表示小数呢？有两种方式：定点数与浮点数

定点数（Fixed Point Number）：

顾名思义，小数点位置固定，例如常见的Qm.n 表示法，共需1（符号位）+ m （整数位） + n （小数位）bit位来表示数据，如Q7，Q15，Q31 等数据类型。
其优点是：计算速度快；
缺点是：表示范围小，不利于同时表达特别大或者特别小的数。

浮点数（Floating Point Number）：

使用科学计数法表示一个小数，优点是表示范围广、精度较高，但计算速度相对复杂。

2 IEEE754规范

2.1 浮点存储格式

IEEE754规范规定了float16、float32(即float)、float64(即double)其存储格式如下，分为三部分表示：符号位（S，蓝色块），阶码（E，绿色块），尾数（M，红色块）：

半精度浮点 float16

float16

单精度浮点 float32

双精度浮点float64

2.2 规格数、非规格数与特殊数

根据阶码E区分，IEEE754规范规定了三种状态：

normal number(规格数)

特点是：阶码E不为0和且不为全1

以float32为例，其形式为：

其值的大小为：

对于float16（bias = 15），float32（bias = 127），float64（bias = 1023）。

规格数不能表示0和非常靠近0的数。

例如：对于一个float32：-3.456 该怎么表示呢？

符号位：为-1，所以s=1，3.456=(1 + 0.728 ) * 2，所以 M = 0.728 E = 1 + 127 = 128

使用工具验算 IEEE-754 Floating Point Converter (h-schmidt.net)

可见与我们想法一致：
subnormal number(非规格数)

特点是：阶码E=0, 表示0以及0附近的值）

其值的大小为（注意，标准规定非规格数指数为1-bias），无论尾数M为多少，都是一个比较接近0的值：

同样的：对于float16（bias = 15），float32（bias = 127），float64（bias = 1023）。
non-number(特殊数)

特点是：阶码E为全1，包括正负Inf，非数值NAN）

无穷大Inf：

非数值 NAN（Not A Number）：

这几种状态在数轴上的分布如下：

2.3 浮点数表示范围与精度

	范围	精度
float16	（-2 * 2^15, 2 * 2^15）也即：（-65536，65536）	1/(2^10) 即 3-4位有效数字
float32	（-2 * 2^127, 2 * 2^127）也即：（-3.4e+38, 3.4e+38)	1/(2^23) 即 6~7位有效数字
float64	（-2 * 2^1023, 2 * 2^1023）也即：（-1.79e+308, 1.79e+308)	1/(2^52) 即 15~16位有效数字

3 浮点数之间相互转换

以float16与float32的相互转换为例：

有时需要将浮点数打印输出，%f可打印单精度浮点型数据（float），%lf可打印双精度浮点型数据（double）。

在C语言中，打印半精度浮点数（float16）可能会有一些挑战，因为C语言标准库通常不直接支持这种类型，这时需要将其强制转换为float32打印，代码中我们可以类似如下操作：

float16_t val = 1.5;
printf("val = %f\r\n", (float32_t)val); // 将float16_t 强制转换为float32_t，通过%f打印

强转看起来比较简单，但实际上在这个过程中，float16 的符号位、指数位和尾数位将按照浮点数格式的规则进行扩展，类似如下操作：

float32_t f16Tof32(float16_t halfFloat) {
    union {
        uint32_t Uint32;
        float32_t F32;
    } val;
    val.Uint32 = *((uint32_t *)(&halfFloat));
    // S + E + M
    val.Uint32 = ((val.Uint32 & 0x8000) << 16) |
                 (((((val.Uint32 >> 10) & 0x1f) - 15 + 127) & 0xff) << 23) |
                 ((val.Uint32 & 0x03FF) << 13);
 
    return val.F32;
}

4 快速计算2的指数次幂的原理

快速计算2的指数幂，正是利用IEEE754的浮点结构，如计算2的x次幂：

s = 0， M = 0， E = x+127

其转换代码如下：

uint32_t power2(uint32_t x) {
    union {
        uint32_t Uint32;
        float_t F32;
    } val;
    val.Uint32 = (127 + x) << 23;
    return (uint32_t)val.F32;
}

// 同样的，我们也可以快速的计算log2
uint32_t log2(float_t y) {
    union {
        uint32_t Uint32;
        float_t F32;
    } val;
    val.F32 = y;
    return ((val.Uint32) >> 23) - 127;
}