【C】IEEE745浮点数格式

【在 ilovezks (ilovezks) 的大作中提到: 】
: 我想求教一个问题：
:  c语言中FLOAT 是如何表示的？尾数，阶码是如何在32位上安排的，即哪几位是
: 尾数，哪几位是阶码，那一位是符号位。听说与CPU有关，是真的吗？

    在C++里，实数（float）是用四个字节即三十二位二进制位来存储的。其中
有1位符号位，8位指数位和23位有效数字位。实际上有效数字位是24位，因为第
一位有效数字总是“1”，不必存储。
    有效数字位是一个二进制纯小数。8位指数位中第一位是符号位，这符号位和
一般的符号位不同，它用“1”代表正，用”0“代表负。整个实数的符号位用“
1”代表负，“0”代表正。
    在这存储实数的四个字节中，将最高地址字节的最高位编号为31，最低地址
字节的最低位编号为0，则实数各个部分在这32个二进制位中的分布是这样的：3
1位是实数符号位，30位是指数符号位，29---23是指数位，22---0位是有效数字
位。注意第一位有效数字是不出现在内存中的，它总是“1”。

    将一个实数转化为C++实数存储格式的步骤为：
    （1）先将这个实数的绝对值化为二进制格式，注意实数的整数部分和小数部
分化为二进制的方法是不同的。
    （2）将这个二进制格式实数的小数点左移或右移n位，直到小数点移动到第
一个有效数字的右边。
    （3）从小数点右边第一位开始数出二十三位数字放入第22到第0位。
    （4）如果实数是正的，则在第31位放入“0”，否则放入“1”。
    （5）如果n 是左移得到的，说明指数是正的，第30位放入“1”。如果n是右
移得到的或n=0，则第30位放入“0”。
    （6）如果n是左移得到的，则将n减去一然后化为二进制，并在左边加“0”
补足七位，放入第29到第23位。如果n是右移得到的或n=0，则将n化为二进制后在
左边加“0”补足七位，再各位求反，再放入第29到第23位。

    将一个计算机里存储的实数格式转化为通常的十进制的格式的方法如下：
    （1）将第22位到第0位的二进制数写出来，在最左边补一位“1”，得到二十
四位有效数字。将小数点点在最左边那个“1”的右边。
    （2）取出第29到第23位所表示的值n。当30位是“0”时将n各位求反。当30
位是“1”时将n增1。
    （3）将小数点左移n位（当30位是“0”时）或右移n位（当30位是“1”时）
，得到一个二进制表示的实数。
    （4）将这个二进制实数化为十进制，并根据第31位是“0”还是“1”加上正
号或负号即可。

    特别地，实数0用C++的float格式表示是0000000000000000000000000000000
0。

    如果还不太明白，这里举几个例子。
    一。将23.56化为C++的float格式。
    （1）将23.56化为二进制后大约是“10111.1000111101011100001”。
    （2）将小数点左移四位，得到“1.01111000111101011100001”。
    （3）这已经有了二十四位有效数字，将最左边一位“1”去掉，得到“0111
1000111101011100001”。将它放入第22到第0位。
    （4）因为23.56是正数，因此在第31位放入“1”。
    （5）由于我们把小数点左移，因此在第30位放入“1”。
    （6）因为我们是把小数点左移4位，因此将4减去1得3，化为二进制，并补足
七位得到0000011，放入第29到第23位。
    完毕。
    如果把最左边定为第31位，最右边定为第0位，那么在C++里，float格式的2
3.56是这样表示的：01000001101111000111101011100001。相应地-23.56就是这
样表示的：11000001101111000111101011100001。

    二。将实数0.2356化为C++的float格式。
    （1）将0.2356化为二进制后大约是0.00111100010100000100100000。
    （2）将小数点右移三位得到1.11100010100000100100000。
    （3）从小数点右边数出二十三位有效数字，即11100010100000100100000放
入第22到第0位。
    （4）由于0.2356是正的，所以在第31位放入“0”。
    （5）由于我们把小数点右移了，所以在第30位放入“0”。
    （6）因为小数点被右移了3位，所以将3化为二进制，在左边补“0”补足七
位，得到0000011，各位取反，得到1111100，放入第29到第23位。
    完毕。因此0.2356用C++的float格式表示是：00111110011100010100000100
100000。其中最左边一位是第31位，最右边一位是第0位。

    三。将实数1.0化为C++的float格式。
    （1）将1.0化为二进制后是1.00000000000000000000000。
    （2）这时不用移动小数点了，这就是我们在转化方法里说的n=0的情况。
    （3）将小数点右边的二十三位有效数字00000000000000000000000放入第22
到第0位。
    （4）因为1.0是正的，所以在第31位里放入“0”。
    （5）因为n=0，所以在第30位里放入“0”。
    （6）因为n=0，所以将0补足七位得到0000000，各位求反得到1111111，放入
第29到第23位。
    完毕。所以实数1.0用C++的float格式表示是：0011111110000000000000000
0000000。其中最左边一位是第31位，最右边一位是第0位。

浮点数的精度取决于尾数部分。尾数部分的位数越多，能够表示的有效数字越多。

单精度数的尾数用23位存储，加上默认的小数点前的1位1，2^(23+1) = 16777216。因为 10^7 < 16777216 < 10^8，所以说单精度浮点数的有效位数是7位。

双精度的尾数用52位存储，2^(52+1) = 9007199254740992，10^16 < 9007199254740992 < 10^17，所以双精度的有效位数是16位。

posted @ 2012-10-29 21:33 net小伙阅读(1901) 评论(0) 编辑收藏举报

刷新页面返回顶部

net小伙

横竖都是二

【C】IEEE745浮点数格式

公告