补码的本质 - gnuemacs

公告

补码的本质

在很多课堂上，老师都讲过补码的概念。可是不管怎么讲，最后留在头脑中的只有一些例如“补码的符号位可以直接参与运算”之类的方法，还有一条公式：

\[正数补码=本身，负数补码=反码+1 \]

这些方法和公式似乎成了考试解题的金科玉律。然而，今天早上突然想知道，补码到底是什么，为什么有上面那些公式和方法。通过一段时间的研究，下面写一写个人目前对于补码本质的理解。可能会有些错误，如果各位大神们看到了欢迎斧正。

前置知识

这一部分主要讲同余，主要是为一些不了解或者忘了同余概念的读者而写，如果会的话可以直接跳过。

在数论中有一个重要概念是同余。

\[a\equiv b \pmod c \]

这个式子表示\(a\)除\(c\)的余数和\(b\)除\(c\)的余数相等。我们可以读作\(a\)和\(b\)对\(c\)同余，也可以说\(a\)和\(b\)在模\(c\)意义下相等。比如，我们有

\[16\equiv9\pmod 7 \]

\[15\equiv5\pmod 5 \]

\[2\equiv7\pmod 5 \]

\[-2\equiv3\pmod 5 \]

\[-2\equiv-7\pmod 5 \]

同余具有一个重要的特点——线性性质。也就是说，

\[a\equiv b\pmod c \\ c\equiv d\pmod c \]

可以推出

\[a+c\equiv b+d\pmod c \]

这个性质使得同余有一个强大的能力——在模意义下，化负数为正数，化减法为加法。比如，在模\(3\)意义下计算\(5-7\)。一种方法是直接计算：

\[5-7=-2\equiv1\pmod 3 \]

还有一种方法是化负数为正数，化减法为加法。因为我们知道

\[-7\equiv2\pmod 3 \\ 5\equiv5\pmod 3 \]

由线性性质，两者相加可得

\[5-7\equiv2+5\pmod 3 \]

于是，我们将模\(3\)意义下的计算\(5-7\)变为计算\(2+5\)。负数变为了正数，减法变为了加法。

为什么要使用补码

学过数字电路基础知识的读者都知道，计算机中的运算主要由ALU（算术逻辑单元）进行。这个单元中具有很多的加法器、乘法器等模块。可是，有一个很大的问题——如何计算减法呢？还有如何表示负数呢？

前人考虑了一种办法。把每个数字的最后额外增加一个符号位。这个符号位为1，则代表这个数字是负数。为0则为正数。注意，这个符号位是不能参与运算的，它只是一个代表这个数字正负的标志。一个数字在计算机内的表示，就是这个符号位和这个数字本身的二进制码的结合。然而，这么做具有一个巨大的问题。需要对四种不同的运算，涉及四种不同的电路：

\(正数+正数\)
\(正数+负数\)
\(负数+正数\)
\(负数+负数\)

此外，还需要一个复用器来根据符号位判断选用哪一个电路进行运算。这么做显然对于性能、功耗都很不利。后来，人们希望寻找一种方法，把所有的计算（无论加减），都纯粹地使用加法器电路来完成。

引入

下面考虑一个问题。你面前只有一个3位加法器。如何用它计算\(-1-2\)的值？

我们知道，一个\(k\)位的加法器，具有两个\(k\)位的输入和\(k\)位的输出。最高位的进位会被舍弃（我们目前不考虑进位标志之类的）。也就是说，对于\(3\)位加法器，比如\(111_{(2)}+111_{(2)}=1110_{(2)}\)，加法器的输出只会保留其后三位\(110\)。这个加法器的结果\(110_{(2)}\)，和实际的值\(1110_{(2)}\)实际上相差了一个进位，或者说相差了\(8\)。

\[0110_{(2)}=0\times2^3+1\times2^2+1\times2^1+0\times2^0 \\ 1110_{(2)}=1\times2^3+1\times2^2+1\times2^1+0\times2^0 \]

显然它们相差最高位的\(2^3\)，也就是\(8\)。这个加法器要么能算出准确结果，要么算出的结果就比实际结果少\(8\)。

实际上，从同余的角度讲，这个加法器是在模8意义下进行计算的。因为，少8不会改变算出结果对\(8\)的余数和实际结果对\(8\)余数的相等性。比如给这个加法器输入两个\(7\)，加法器将输出\(110_{(2)}=6\)。

\[7+7\equiv6\pmod 8 \]

在模8意义下，加法器就是“准确”的。因为去掉了进位的\(6\)，和实际的结果\(14\)，是对8同余的。

那我们如何用加法器计算\(-1-2\)呢？显然加法器只能输入正数，所以没法直接输入\(-1\)、\(-2\)。因为这个\(3\)位加法器是相当于在模8意义下进行计算的，我们联想到前面讲的同余具有化负数为正数的功力，于是我们将\(-1\)、\(-2\)人工转化为同余的正数

\[-1\equiv7\pmod 8 \\ -2\equiv6\pmod 8 \]

然后，我们只需要将\(7\)和\(6\)输入到加法器里面就行了！牢记，加法器会在模8意义下计算，于是加法器输出结果为

\[7+6\equiv5\pmod 8 \]

所以，加法器将会告诉我们，\(-1-2\)的值，和\(5\)，在模8意义下是相等的。然而我们人为知道，\(5\)和\(-3\)在模8意义下也相等。于是可以得到

\[-1-2=-3 \]

出现问题

刚才的最后一步会令人很迷惑。加法器只告诉我\(-1-2\)的值，和\(5\)，在模8意义下是相等的。那这个运算的结果到底是\(5\)还是\(-3\)呢？虽然\(5\)和\(-3\)在模\(8\)意义下相等，可他俩本身不相等呀。

于是，我们需要人为定义一下，比如加法器计算结果是\(5\)，这个5我们需要人为规定它表示的是\(5\)还是\(-3\)。实际上人们是这么一半表示正数，一半表示负数规定的（后面会解释这么规定的好处）。

加法器的计算结果	模8意义下可以表示的数	人为规定表示的数
0	0或-8	0
1	1或-7	1
2	2或-6	2
3	3或-5	3
4	4或-4	-4
5	5或-3	-3
6	6或-2	-2
7	7或-1	-1

这么一规定，于是我们就可以得到\(-1-2\)的结果为\(-3\)了！为了更加统一，人们干脆直接将每个数字（也就是上面的“规定表示的数”一列），和一个模意义下的正数（比如“加法器的计算结果”一列）唯一对应起来。并且，那个正数被称为“补码”。需要注意，这里的“补码”，默认是关于8的补码。关于不同大小的补码是不一样的。得到了下面的这个表格。

使用补码计算

数字	补码	补码的二进制
0	0	000
1	1	001
2	2	010
3	3	011
-4	4	100
-3	5	101
-2	6	110
-1	7	111

回到这个问题，你面前只有一个3位加法器。如何用它计算\(-1-2\)的值？首先，我们人为查这张表，找到数字-1、-2对应的补码。然后把这两个补码送到加法器里面去计算。加法器会输出\(5\)，然后找补码\(5\)对应的数字，就是结果的数字。在这里就是\(-3\)。

这么做的一个好处在于，这种方式中，数字的运算本身已经携带了符号信息。一切都可以通过加法器完成。此外，为什么人们规定补码0、1、2、3对应的是正数0、1、2、3，补码4、5、6、7对应的是负数-4、-3、-2、-1呢？因为这样一半一半地划分，可以直接通过补码的二进制的最高位（从右往左第3位）看出数字的符号。看上面的表格，补码二进制的最高位是1的地方，对应的都是负数。二进制最高位是0的地方对应的都是正数。不过这个符号位和前面人为故意设置的符号位是不一样的。这个符号位本身就是补码的一部分（还记得吗，补码实际上就是前面那个“加法器的输出”），可以直接参与运算。

接下来我们尝试计算\(-3-4\)。我们先根据上面的表，\(-3\)的补码是5，\(-4\)的补码是4，加法器将会输出\(1\)。回去查表，发现补码\(1\)对应的是正数1？难道\(-3-4=1\)？

实际上，根据\(1\)和实际的结果\(-7\)，在模8意义下是相等的。但是这里，我们已经人为规定了，\(1\)只能表示1，不能表示-7。此外，我们在前面的表格中，也并没有给数字\(-7\)留位置（如果要留的话，数字\(-7\)将会和数字\(1\)的位置冲突）。这种情况本质是因为两个负数相加得到的负数绝对值太大，以至于超过了表示范围，而变成了一个“正数”。这种情况被称为有符号数溢出。在两个比较大的正数相加，也会有这种情况。比如\(2+3\)也没法被正常计算。读者可以自己试一试。

有符号数溢出还有一个二进制情况下的解释。考虑前面的\(-3-4\)，被转化为补码相加\(101_{(2)}+100_{(2)}=1001_{(2)}\)。而加法器只有三位，将得到\(001_{(2)}\)。这种情况下，我们发现得到的结果的“符号位”实际上是1，但是1在从右往左第四位，加法器只有3位，而无法保留这个1。而符号位变成第三位0。

一般情况

我们把之前的要表示的数字称为原码。对于更加一般的情况，一个\(n\)位的定长数，也是类似的。

原码	补码
0	0
1	1
...	...
\(2^{n-1}-1\)	\(2^{n-1}-1\)
\(-(2^{n-1})\)	\(2^{n-1}\)
\(-(2^{n-1}-1)\)	\(2^{n-1}+1\)
...	...
\(-1\)	\(2^n-1\)

补码的最高位为1对应了负数\(-2^{n-1}\le x \le-1\)，补码的最高位为0对应了正数\(0\le x \le 2^{n-1}-1\)。

根据刚才的分析，原码和补码之间天然的关系呼之欲出。对于一个原码\(x\)，设\(\bar x\)表示\(x\)的将每一位取反后的数字（一般称为反码），我们显然有

\[x+\bar x=(11111111....11111)_2 \]

上面的括号中，有\(n\)个\(1\)。之前已经讲过，所有运算本质上都是在模\(2^n\)下的运算！因此，将上面的算式变化为

\[x+\bar x\equiv (11111111....11111)_2 \pmod {2^n} \]

而

\[(11111111....11111)_2=2^n-1 \]

所以，

\[x+\bar x\equiv 2^{n}-1\equiv-1 \pmod {2^n} \]

于是

\[-x\equiv\bar x+1\pmod {2^{n}} \]

这个恰恰就是教科书上经常出现，但又出现的莫名其妙的公式：

\[负数补码=反码+1 \]

几个例子

例1

设机器数字长8位，补码计算\(45-54\)。

第一种方法：教科书方法

\[45_{(补)}=45_{(原)}=00101101_{(2)} \\ -54_{(补)}=54_{(反)}+1=11001010_{(2)} \\ 于是45-54=00101101_{(2)}+11001010_{(2)}=11110111_{(2)} \\ 于是\bar x=-x-1=11110111_{(2)}-1=11110110_{(2)} \\ x=-1001_{(2)}=-9_{(10)} \]

第二种方法：补码的本质

\[-54\equiv202\pmod {256} \\ 于是\\ 45-54\equiv45+202\equiv247\equiv-9 \pmod {256} \\ \]

显然补码\(247\)对应的原码为\(-9\)，故答案为\(-9\)。

例2

字长8位，判断下列算式是否发生溢出，若不溢出，计算其结果。

\[-85-60 \]

第一种方法：教科书方法

首先计算出\(-85\)的补码为\(10101011_{(2)}\)，\(-60\)的补码为\(11000100_{(2)}\)。于是，

\[10101011_{(2)}+11000100_{(2)}=101101111_{(2)} \]

截断后，发现变为\(01101111\)，首位消失。所以产生了溢出。

第二种方法：补码的本质

\[-85\equiv171\pmod {256} \\ -60\equiv196\pmod {256} \\ -85-60\equiv171+196\equiv367\equiv111\pmod {256} \]

而补码\(111\)对应的原码就是\(111\)，是一个正数。发生了溢出。

posted on 2020-12-22 13:56 gnuemacs 阅读(805) 评论(1) 收藏举报

刷新页面返回顶部