补码
2020.3 update: 这段文字是我2018年10月大一的时候写的,当时大概在程设课上想到,以为自己发现了什么新大陆。但其实,这无非是补码的原理在我们的计算机教学中没有体现的缘故,这里所讲所想的,在Computer System: A Programmer's Perspective这本计算机系统科普入门书的第2章 Representing and Manipulating Information里都有提到,而且讲解更仔细。一年后发现我这篇短文章的阅读量竟然不小,可见中文互联网对优秀内容的需求还是很大的。重读当时的文字,感觉当时写的基本原理都是对的,只是行文很不流畅,留下青涩的痕迹,排版也有错漏。在此打磨一下。
===========================================================================我是分割线=
C++里面带符号整数类型(例如int)对负数的二进制存储是用补码进行的.对补码的解释一般是"对负数的绝对值按位取反再+1".
不过我觉得"按位取反再+1"只是用到补码的时候一种正确的求法.
更符合补码的原理,对补码更加自然的解释是:对于负数\(-x\),"若数据类型为n个二进制位,则补码为\(2^n-x\)".也就是说,这个补码其实就是\(-x\),只不过是对\(2^n\)取模之后的\(-x\).这样就能理解,为什么减去一个数等于加上这个数的补码,因为补码无非是这个数在模意义下的相反数.
自行验证一下,按位取反再+1和\(2^n - x\)的结果是完全一样的. 这是因为按位取反就相当于\(2^n-1-x\).
#include<cstdio>
int main(){
unsigned int a = -1;
printf("%d\n",a);
printf("%u\n",a);
printf("%x\n",a);
return 0;
}
unsigned int a = -1
这个赋值语句首先要把-1转化为二进制补码表示,然后把这串补码表示的二进制数直接赋值给a,赋给a的值当然就是\(2^{32}-1\).
printf("%d\n",a)
却能完美地输出-1.
这里涉及到int如何分辨正数和负数.int有32个二进制位,用最高位分辨正负.如果最高位为1,就是负数,最高位为0,就是正数(或者0).
int存储范围是\([-2^{31},2^{31}-1]\) 我们把负数(-x)都用补码表示,也就是说用\(2^{32}-x\)表示\([-2^{31},-1]\)这个范围的整数.可以看到,这个范围的数字得到的补码恰好都是最高位为1的.(\(-2^{31}\)的补码是"最小"的补码,只有最高的二进制位是1,其他二进制位都是0,而-1的补码所有二进制位都是1).而int能表示的最大正数\(2^{31}-1\),就是令最高位为0,其他数位都是1.
0的补码仍为0,所以补码表示法解决了0的正负问题.
回过头来看那段代码,printf("%d\n",a)
里面的%d把a的二进制表示按照int类型解释,自然就解释出了-1的值,输出结果是-1.
总结一下,int补码表示法的的本质是在模2的n次方的意义下表示负数(n通常为32), 也就是把 \(-x\)表示为\((-x)\mod 2^n\)