C语言的补码表示和unsigned及signed的转换
这东西实际编程时一直无视的,范围小了就换个大点的表示形式,但是总觉得基础知识还是掌握得好,免得到时候用移位运算或类型转换或笔试题时要花时间想。
C语言的基本类型有char、int、float、double,另外还有说明符long、short、signed和unsigned。
首先要注意在不同操作系统中类型大小不一样,下面的情况只是考虑其中一种情况。
int和char均默认为signed,二进制的最高一位来表示符号,0为正1为负。
假如short int是16位,由于第1位表示正负,所以只剩15位表示实际数值,范围为-2^15到2^15-1
举例,按照原码表示:
0000 0000 0000 0101表示5
1000 0000 0000 0101表示-5
反码就是符号位不变,数值位取反,比如5就表示为0111 1111 1111 1010
但是这样问题来了,1000 0000 0000 0000跟0000 0000 0000 0000表示的都是0,这样0就有2种编码方式。
所以C语言采取了补码表示,1000 0000 0000 0000表示的是-2^15而非0。
补码:1、对于正数,补码与原码相同;2、对于负数,数值位的绝对值取反后在最低位加1。
PS:负数转整数也是取反后最低位加1(不是减1)
因此,C语言中是用表示-5的是1111 1111 1111 1011
那么对负整数逐次进行自加运算得到结果如下
-4 1111 1111 1111 1100
-3 1111 1111 1111 1101
-2 1111 1111 1111 1110
-1 1111 1111 1111 1111
于是-1再自加后所有位数全部变为0,0的表示形式就变成了0000 0000 0000 0000,表示0的只有一种形式。
C语言支持移位运算,即将数据看成二进制数,对其向左或向右移动若干位。
逻辑移位:移出去的位丢弃,空位补0
算术移位:移出去的位丢弃,空位补符号位(只有当有符号数做右移运算时才是算术移位)
0000 0101向左移2位(即5<<2)后变成 0001 01??,?处补0,所以结果是0001 0100,为20.
1111 1011向左移2位(即-5<<2)后变成1110 11??,?处补0,所以结果是1110 1100,按照补码规则,为正数0001 0011的相反数加1,即-(19+1)=-20
所以左移很简单,可以i << j可以替代乘法运算i*2j,运算效率更高。
要注意的是,虽然一般不会用到,但是左移位数超过该数值类型最大位数时,编译器会用位数求余,所以这就跟具体类型大小有关。
0010 1001向右移2位(即41>>2)后变成??00 1010,正数?处补0,所以结果是0000 1010,为10。
1101 0111向右移2位(即-41>>2)后变成了??11 0101,负数?处补1,所以结果是1111 0101,为正数0000 1010的相反数加1,即-(10+1)=-11
可以看出绝对值相同的正数和负数右移同样位数后得出的结果并不一致,i>>j并不能等价于i/2j!-41/4的结果是-10!
最后谈谈unsigned转signed,以char为例。
char在计算机内部是用一个字节的二进制来表示的,这里假定默认为signed,表示范围为-128到127。
对于char c = 128; c的二进制表示为1000 0000,如果转换成int输出是-127。
char转换成short int并不是说位数增加了,而是把它当成short int来解释,因此c还是1000 0000,表示的是-127,而不会因为转型为int就变成了0000 0000 1000 0000
看下面一段代码,signed转unsigned
int _tmain(int argc, _TCHAR* argv[]) { char c = 128; unsigned char cu = c; short int i = cu; cout << i; return 0; }
把c转换成unsigned char后,再转换成short int,那么输出的就是128,转型后还是1000 0000,但是按照unsigned的解释,最高位不再是符号位,而是数值位,所以结果就是2^8=128。
好了,再看下面一段代码,unsigned转signed
int _tmain(int argc, _TCHAR* argv[]) { unsigned char cu = 255; char c = cu; short int i = c; cout << i; return 0; }
255的unsigned表示为 1111 1111,转换为signed后,符号位1代表是负数,数值位转换成十进制后是127,按照补码的定义结果为-1。
以前用OpenCV处理图像时,经常被绕住,因为IplImage*的ImageData是char表示的,而处理图像时一般都转化成了unsigned char,回顾了补码的概念后那么下面这个对应就好理解了。
数值区间 | [0,127] | [-128,-1] |
char | x | x |
unsigned char | x | 256+x |