5 信息的表示和处理_整数表示
在讲述整数之前,先引入编码这个概念。因为计算机里面都是用 0/1串来表示一切的。使用到数值的时候,例如整数运算,需要先将整数转换成0/1的二进制表示,这个转换过程就叫编码。
1 无符号数编码
无符号数:用自然的二进制表示,取值范围只能是大于或者等于零的整数
无符号数特征:每个介于0~2^x-1的数都有唯一一个x位的值编码。例如十进制21作为无符号数,只有一个5位的表示,即【10101】 。也就是说:在0~2^x-1之间的每一个整数都可以映射为一个唯一的长度为x的位模式
- 正整数或者0的无符号编码就是它的二进制形式
- 负整数没有其无符号编码,因为负数要用补码来表示
2 补码编码
补码:用二进制表示,但是最高位为符号位,符号位是1表示负数,0表示非负数。因此补码的取值范围可能是大于0,等于0,少于0的整数。
基于符号位这一特征,计算机可以使用补码来表示负数 (不是指补码编码一定是负数,而是负数可以使用补码编码)
补码的范围是不对称的,x位补码的值表示范围:所能表示的最少值是[10……0],最高位设置成1,其它位设成0。最大值为[01……1],最高位设置成0,其它位设为1。
以长度4为例子,它的最小值表示是[1000] 即-8,最大值表示是[0111] 即7。所以取值范围是: -8~7。
关于补码的举例子1:
补码编码为【11 0001】,代表十进制数值:-1*2^5 + 1*2^4 +0*2^3 + 0*2^2 +1*2^0 = -32+16+1 = -15
补码编码为[1011] 代表十进制数:11
十进制数 -7的补码编码为:[1001] 。
继续举例2:
十进制12345的补码表示:0011 0000 0011 1001
十进制-12345的补码表示:1100 1111 1100 0111
十进制53191的无符号表示:1100 1111 1100 0111
发现,-12345的补码和53191的无符号的位表示是一样的。
- 因此,声明整型数值时需要明确表示它是有符号还是无符号的,否则,同样的位表示,可能会对应两个不同的整数。同时印证了,任何整数都有唯一一个位编码,但是一个位编码可能对应不同的整数。
- C语言中,int代表是有符号整数,unsigned代表无符号整数
注意注意:
C语言标准并没有要求用补码来表示有符号整数,但几乎所有机器都这么做。 即:可以用补码来表示有符号整数
关于整数如何表示补码
- 先统一转换成十进制,并且确定它的位个数。
- 如果不小于0,那么补码就是其二进制原码
- 如果小于0,先计算出正数形式的二进制原码,然后取反,再对取反结果加上1,就得出补码。
举例子:
比如-7的补码是1001
1、-7的正数表示:0111
2、0111,取反得到 1000
3、取反结果加上1:1001
3 有符号数和无符号数之间的转换
先说结论:
条件1:C语言
条件2:在具有相同字长的环境下
结论:强制类型转换后,数值可能会改变,但是位编码不变。
怎么理解:
强制类型转换前后,底层表示的位编码不会变的,变化的是数值。
看例子:在用补码表示有符号数的机器下编译并运行以下代码
#include <stdio.h>
int main(){
short int v = -12345;
unsigned short uv = (unsigned short)v;
printf("v=%d,uv=%u\n",v,uv);
return 1;
}
输出结果是:v=-12345,uv=53191
而-12345的补码编码跟53191的无符号编码有相同的位表示(上面的举例2已证明)
3.1 补码转为无符号数
转换规则:
先计算出补码,然后忽略最高位的负权重,作为自然的二进制
例如 -8 ,补码是1000 ,那么对应无符号数编码就是1000 ,对应十进制是8
例如 -3 ,补码是1011 ,那么对应无符号数编码就是1011 ,对应十进制是11
例如 5 , 补码是0101 ,那么对应无符号数编码就是0101 ,对应十进制是5
3.2 无符号数转为补码
例如 5 , 无符号数编码是0101 ,对应补码0101 ,对应十进制是5
例如 9 , 无符号数编码是10001 ,对应补码10001 ,对应十进制是-15
4 数字的位扩展
首先为什么会出现位扩展?
一个典型的例子就是,在不同字长的整数之家切换,同时又能保持数值不变。比某值如在32位系统中占4个字节,但是在64位系统占据8字节。
- 无符号数,0扩展,即高位补0
- 补码(有符号数),符号位扩展,即高位补扩展前高位的值。
举个例子:-5的补码
向量 [1011] 可以是-5的补码
向量 [11011] 是-5的补码
向量 [111011] 是-5的补码
这表明,第二、三个 位向量可以通过第一个位向量做符号扩展得到
是不是觉得很神奇!!其实是通过数学证明过来的
5 数字的位截断
首先为什么会出现截断?扩展的反向情景,比如从2字节收缩为1字节。
比如当一个2字节的数,转化为1字节的数时,应截断去掉高位数据,那么仅仅去掉高位的数据就行了么,不需要额外的其他操作了吗? 答案是肯定的,只需要把高位去掉,保留低位就行。
1. 无符号数,高位去掉,保留低位。
2. 补码(有符号数),同样如此。
6 C跟Java对无符号数的支持
- C语言是为数不多的支持无符号数。有符号数到无符号数的隐式转换,可能会导致某些非直观的错误,建议都使用有符号数
- Java只支持有符号数,并且用补码的运算来表示。即用任意整数都用补码的方式来编码成二进制代码。
7 额外补充Java相关的知识:
JVM支持的所有整数数据类型-byte,short,int和long,他们都是带符号的二进制补码。在java中计算补码使用以下法则
- 正数的补码就是二进制序列。
- 负数的补码就是对反码加1,
用补码表示 -5,先变成二进制的原码,再取反变成反码,然后反码+1
0000 0101 (5) ----->1111 1010----->1111 1011 (-5) 补码