研究一下 CPU 除法

在 QQ 群里，我让网友馥岚过野出题来考我，

馥岚过野说：

“

你昨晚又说做汇编了

我问你几个问题：

目前CPU整数乘法和除法的性能差别在多少左右？

32位乘法和64位乘法有什么差别？

整数乘法时，大数和小数有没有区别？

”

2021-08-11 接着写。

要回答这些问题，我们先来研究一下计算机的除法是怎么实现的。

除法就是做减法，试商一位，除数乘以这一位商，由被除数来减，差为余数，再试商下一位，同样，除数乘以这一位商，由余数来减，如此重复。

这个过程用逻辑电路可以实现出来，比如：

这个计算过程的逻辑电路可以设计出来，最简单的设计，每个时钟周期作一次试商，比如先试商 1，如果 1 乘以除数，比被除数对应的前几位小，或比添位后的余数小，则试商成功，否则试商 0 。

二进制比较简单，每一位最多只要试商 2 次， 0 和 1 。也就是说，每一位最多需要 2 次试商，也就是 2 个时钟周期。

对被除数的每一位最多要试商 2 次，要 2 个时钟周期，能不能在一个时钟周期里，就完成这 2 次试商？

可以。这可以用组合逻辑电路实现，不用时序逻辑电路，也就是说，除法对一位的（最多两次）试商都可以由一个组合逻辑电路来实现，也就是在一个时钟周期里完成。这里的试商包括了试商 * 除数再由被除数（余数）来减的整个过程。

这个组合逻辑电路的模块电路图可以这样画：

这样，每一位的（2 次）试商可以在一个时钟周期里完成。

一个 8 位的二进制数，除以一个 8 位以内的二进制数，看起来要对 8 个位试商。

一开始，第 1 次试商的时候，被除数和除数 * 试商的最高位要对齐，再相减。

之后，余数和除数 * 试商则是从最低位对齐，再相减。

实际上，余数要添位之后才会和除数 * 试商相减。添位，就是给余数添上当前试商的被除数的那一位。

有时候，也不用添位，直接在当前试商的位补 0 就行。

为了叙述简便，余数添位后仍然简称余数，大家自行理解即可。

使用上面这个组合逻辑电路，对每一位的试商需要一个时钟周期，对 8 位试商需要 8 个时钟周期，也就是做完一次除法需要 8 个时钟周期。

以此类推， 16 位二进制数的除法要 16 个时钟周期， 32 位的除法要 32 个周期， 64 位的除法要 64 个周期。

加法减法乘法都只要一个时钟周期，看起来除法成了工作量 “大户” 了。

能不能缩短一些时间，也就是减少一些时钟周期？

能不能在一个时钟周期内做完 8 位的试商？

可以，同样，这也就是用一个组合逻辑电路来完成对 8 位的试商，画一个模块电路图：

这个图没有画完，只画了 2 层试商模块， 1 层试商模块负责对 1 位试商， 8 位就要 8 层试商模块。

看的出来，第 1 层试商模块是 2 个，第 2 层的试商模块个数是第 1 层的 2 倍，是 2 * 2 = 4 个，下一层是上一层的 2 倍，也就是，

第 3 层的试商模块个数是 2 ³ = 8 个，

第 4 层的是 2 ⁴ = 16 个，

第 5 层的是 2 ⁵ = 32 个，

第 6 层的是 2 ⁶ = 64 个，

第 7 层的是 2 ⁷ = 128 个，

第 8 层的是 2 ⁸ = 256 个，

全部加起来就是 2 + 4 + 8 + 16 + 32 + 64 + 128 + 256 = 512 个试商模块。 512 = 2 * 2 ⁸ ，也就是 2 * 2 ⁸ 个试商模块。

也就是， n 位二进制整数的除法要在一个时钟周期里完成，需要 2 ^ ( n + 1 ) 个试商模块。

这个数量是很大的， 16 位时， 2 * 2^16 = 131072 ≈ 13 万， 32 位时， 2 * 2^32 = 8 G ≈ 80 亿。

13 万个试商模块，这么多电路元件只是用于除法，这个电路规模是很大的， 80 亿那就更夸张了。

可以看到，要想在一个时钟周期里完成比较多位的除法，需要一个规模很大的组合逻辑电路，规模很大就是元件数量很多。

这些与硬件工艺硬件资源硬件成本相关。

总之呢，一个时钟周期完成 32 位除法是不现实的， 16 位可能也够呛，那么，能不能折中一点，比如一个时钟周期完成 4 位除法，这样， 8 位除法就是 8/4 = 2 个周期， 16 位除法是 16/4 = 4 个周期， 32 位除法是 32/4 = 8 个周期， 64 位除法是 64 / 4 = 16 个周期。

应该可以这样做，哈哈。

上面的是基本的除法，也可以说是整数除法，再来看看浮点数的除法。

比如， 1001 / 0.0011 ，首先要对齐被除数和除数的小数点，就是把被除数和除数都转换成整数， 1001 / 0.0011 = 10010000 / 11 ，

1001 / 0.0011 会转换成 10010000 / 11 来计算。

1001 是 4 位，转换成 10010000 ，就成了 8 位，需要 8 位的存储单元和运算电路。

对二进制来说，余数比除数至少要少一位，如果除数是 4 位，则余数可能是 3 位、2 位、1 位、0 位。

当然，如果试商是直接补 0 ，试商 * 除数 = 0 * 除数 = 0，余数 - 试商 * 除数 = 余数 - 0 = 余数，余数还是保持不变，此时，余数也可能和除数的位数一样，也就是，余数也可能是 4 位。

试商模块处理余数添位和余数 - 试商 * 除数，余数最多 4 位，除数最多 4 位；试商是 1 位，二进制的话，试商只会是 1 和 0 ，试商 * 除数也只会等于除数或 0，也就是试商 * 除数最多 4 位，所以，试商模块最多只要处理 4 位数据就可以，也就是说，试商模块只要 4 位电路就可以。

8 位电路应该主要是存储被除数和商的电路。但 4 位数的除法，商似乎也是 4 位，所以，商似乎也只要 4 位的存储单元。

如果是 1001 / 0.00000011 ，那要转换成 100100000000 / 11 ，被除数 1001 要变成 100100000000 ，一个 12 位整数，需要 12 位的存储单元。

实际的 CPU 的电路位数是有限的，设计的时候会决定电路位数，这会对浮点数的（大数）除法精度产生相应的影响。

比如，电路支持的位数是 4 位，则 1001 / 0.0011 转换成 10010000 / 11 ，如果被除数的存储单元只有 4 位，就只会存储 10010000 的高 4 位 1001 ，于是，实际的除法只会做到前 4 位 1001 除以 11，商的后面位数可能直接补 0 。

补 0 的部分和实际的商之间就会有差，这个差就是丢失的精度。

当然， 10010000 / 11 刚好前 4 位 1001 / 11 = 11 就可以除尽，后面确实补 0 就可以，但这只是一个例子，如果前 4 位除不尽，那补 0 的部分和实际的商之间就会有差了。

所以， 32 位的除法电路的被除数存储单元不一定只有 32 位，可能是更多位，这样可以在浮点数大数除法时减少精度丢失。

小朋友们，看了上面的计算机除法基础知识，应该可以回答开头的问题了吧？

等，我现在才发现，开头的 3 个问题中，只有一个提到了除法，这？

我记得看了好几遍题目，这是怎么回事？

我提倡用模块电路图 + 模块规格来做硬件电路设计，真的很爽，爽死了，无敌。

模块规格包括模块定义、接口、参数等。

posted on 2021-01-17 23:20 凯特琳阅读(1099) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

凯特琳

研究一下 CPU 除法

导航

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论