P4-单周期CPU（Verilog实现）

仅凭阅读本文，您并不能学会如何用verilog实现单周期CPU，但是您的收获可能有：知道怎么实现是麻烦的，知道麻烦的后果是什么，了解一种比较好的实现思路，了解课上测试的形式与内容。

注意，由于20级更换了评测平台，并且看起来测试数据变多了，所以测试点**不一定**有“分布特点”：前几个点是课上的新指令点，后面的都是纯课下指令的强测。如果有大佬课上很快地AK了，可以故意把新指令删了提交上去试一下。

PS:本人还没死透，虽然在P3献出了首挂，但仍可一搏，拖更的原因是，我第一遍写代码又写复杂了，虽然能过，但是为了课上方便修改，所以又重写了一遍（人不能没有从头再来的勇气）

这里会粗略介绍搭建过程，重点介绍P4与P3在实现上的区别、我踩过的坑、第一次写时代码的缺陷以及第二次编写时的优化点，希望能拿来警醒自己，也希望能给各位的设计提供一些可能的优化方案。

想学习单周期CPU理论的，请移步课本/课件，本人自知理论功底浅薄，且理论并非一篇文章就能讲明白的，所以此处分享内容更偏重实现。

引流：关于课上测试的题目风格，可以看这位学姐的博客：https://www.cnblogs.com/Happy-Huan/p/14092007.html

注意：弱测3个点，不CE基本就能过2个点，弱得一批。

搭建中的注意点：

实现基本功能的关键在于两表的填写，实现的复杂度取决于对P3电路的翻译方式。两表，即数据通路表以及指令-信号真值表。在P3中，我们已经至少写过一遍两表了，这里不再多说表的填写方式了。值得注意的是，与P3稍有不同，P3中我们可以尝试先写一条R型指令的所有信息，然后连接一下数据通路，然后再选I,J型的连接一下，造出来基本的框架，但P4推荐把表完全写完之后再去写代码，理由如下：代码描述电路不如直接连线那么直观，如果想要在原有的数据通路上做修改的话，需要自己“耳聪目明”+“命名合理”，才能在修改的时候能够知道该改哪条导线；如果列完表再去写代码的话，由于各个输入输出端口到底有哪些来源，需要怎样的控制信号，都已经完全确定了，故节省了在修改上所花费的时间，并且从实际效果来看，可以节省在mips.v（顶层）定义的导线条数（不推荐再尝试逐步修改实现所有指令的方法了，有时间不如看看流水线）

为了辅助写代码，看着P3的电路图是一个方法，但是，前面说过了，代码实现复杂度取决于翻译方式！再次掏出P3电路说事儿：

我前段时间自认为连得还不算复杂，课上的时候改动也不大，于是我就使用了铁憨憨式翻译法。

铁憨憨式翻译法（错误！）：兄弟们，看到这个电路里的导线了吗？他们有五六十根，我们只要把所有模块搭建好，把所有导线都取上名字，然后对应连起来，就好了，这导致的车祸现场是这样的：

上图为部分mips.v文件中的导线定义，所有导线定义有接近两屏，可以自行想象。

虽然我使用了“前一元件 to 后一元件”的命名方法，但是，我第一次是边造表边连接的，所以很多导线在加指令的时候需要改名字，这样改着改着，导线定义就弄了六十多行，连完之后出了bug怀疑人生，这可怎么改？事实上还是可以改的，合理的添加断点，查看中间变量以及逐条测试指令可以解决这一问题，最终还是奇迹般的过了，然而我估计自己并不敢上课对这样一坨“庞然大物”动手动脚。这个设计无疑是失败的。首先，我这个电路图就不好，比如这里：

NPC有多少种可能性呢？目前支持的指令中，无非是pc+4, pc+4+(offset<<2), {pc+4[31:28],25-0,00}, $寄存器。这四个东西我居然用了3个选择器实现选择（这样的原因是从功利的角度来看，真正连接电路的时候特别好改，易于过课上），这会增加很多导线的定义，也是一种资源的浪费。很显然的一种改进方式是用4选一多路选择器，控制信号改为两位的，这样节省了导线，也减少了控制信号个数。

其次，我采用了边列表边写代码的方式，前面已经说了，这样会有很多改动，对于不直观且导线特别多的代码来说，修改是灾难性的，有时虽有注释，但搞不清导线的真正意义，有时会重定义，对于多路选择器，如果命名不好的话，也不知道该实例化哪一个。

找到失败原因之后，第二次中我采用了如下的翻译方法：

合并2选1多路选择器，并将多路选择器封装到主干模块内部的翻译法（仍不够优）：先放一小段代码以举例子：

`timescale 1ns / 1ps
module ALU(
    input [31:0] A,
    input [31:0] B_from_grf,
     input [31:0] B_from_ext,
     input [1:0] ALUsrc, //为了扩展方便，所以改成了两位
    input [3:0] ALUOp,
    output reg [31:0] result,
    output reg zero
    );
    //0000:加法，   0001:减法，   0010:或运算，   0011：比较运算
    wire [31:0] B;
    wire [31:0] maybe_b[3:0]; //为了简化，把所有选择的数据存到数组中，方便直接通过选择信号直接选出来
    assign maybe_b[0]=B_from_grf; 
    assign maybe_b[1]=B_from_ext;
    
    assign B=maybe_b[ALUsrc];
    always @ (*) begin
        case(ALUOp)
            4'b0000:begin
                result<=A+B;
                zero<=0;
            end
            4'b0001:begin
                result<=A-B;
                zero<=0;
            end
            4'b0010:begin
                result<=A|B;
                zero<=0;
            end
            4'b0011:begin
                if(A-B==0)begin
                    zero<=1;
                end
                else begin 
                    zero<=0;
                end
            end
        endcase
    end
endmodule

ALU部分代码

不像传统的ALU，我把ALU不同的B输入来源都作为单独的输入，并把ALUsrc信号也作为输入。在ALU中，开辟了一块可以存储这几种ALU的B端口的可能输入情况的空间，用ALUsrc选择，然后选出作为B的操作数，这样相当于把多路选择器封装到ALU里面了，用模块内的assign实现减少顶层导线的目的，也不用费尽心思去想怎么定义MUX才能知道这个MUX是干啥的。事实上，如果我们的MUX是以选择哪些地方的东西为标准命名的（比如这里的MUX名字命名为ALUB_select），而不是以它的每个输入是多少位，输出多少位，多少输入为标准命名的话(比如这里是32位输入，32位输出，命名为mux32_to_32，这样)，放在顶层更好（因为保证了ALU功能的单一性：计算，没有杂糅选择功能，加指令的时候也只需要改动mux，不需要改alu的输入口个数）。

上述方法依然不够优，因为它把ALU弄成了一个四不像的东西。事实上，在做完P5之后，会发现一个更好的实现方法是：将小的模块与模块再次封装。比如ALU及其两个输入时用于选择的n选1MUX，我们可以将这三个东西再打包一次，弄一个新的模块（比如叫它为E模块），这样既避免了ALU内嵌mux而耦合严重，也因引入了E模块而简化了顶层mips.v的布线。类似地各位也可以将GRF以及它的输入端的几个MUX封装成新模块。

易错点：

1.非阻塞赋值与display的内容不相符

评测机是通过看我们display的东西和它需要的一样不一样来评判我们是否正确的。如果采用非阻塞赋值，紧接着来一句display的话，由于非阻塞赋值是在过程块结束时才统一赋值的，所以输出的东西是未修改的。

2.位宽

对于0x00003000，它的位宽是32位，所以二进制写法是32'b00000000000000000011000000000000,省事写16进制的话，是32'h00003000，这里的32指的是位宽，而不是这个数在某种进制下有几位！

3.jr跳转

jr不只是可以跳31号寄存器存的地址，任何寄存器存储的地址它都可以跳！这是室友P4课上遭遇的车祸现场，课下弱测并没有测试出来！请务必检查jr是否写对了！

4.还是display

需要输出32位宽的内存地址，不是【11:2】（10位）地址，请大家看好自己的输出！和教程中提供的输出比对一下，应该就会发现。

5.Reset常见误区

首先是同步复位，这个老生常谈了，可以参考我以前的博客。之后就是reset的地方够不够，对不对，我们需要reset的地方是程序计数器PC，寄存器堆GRF，数据存储器DM，除此之外，如果发现自己在其他地方也使用了reset，就得好好斟酌一下，这里到底需不需要reset？比如，我发现自己在IM中加了一个reset，本地测试过了，提交没输出，为何？经过了一天的思考和从各方获取经验，我隐约意识到可能是复位出了问题，IM里面为什么需要reset？是防止PC值没有变成0x00003000吗？我最开始的确是这么想的，所以在里面加了reset，但是，后来我发现，我reset的并不是输入进来的PC，而是，指令存储空间！！也就是说，考虑到评测机最开始上来就reset一下，我读入的code直接没了，当然之后没有输出。为何本地没有测出来问题？因为我没有检查reset,只是保持reset=0跑的程序。这个点卡了我一天多，也卡了评论区不少同学好长时间。还有类似的问题如输出比正常的慢一周期的，也请看看reset。这样，关于reset的坑差不多就介绍完了。

关于debug：

Verilog教程部分的视频建议重新看一遍，学一学如何加断点，如何加入中间变量作为信号，这些对于我们追溯bug的来源很有帮助，比如我就用这个方法逐步追溯一个跳转bug，先在alu里面加断点，填加中间变量看zero是多少，发现不符合预期，并发现ALU的参与计算的AB不是自己想要的，然后我又加断点到GRF，成功发现自己把一条线连错了导致传入ALU的值不对。这里只是举了一个简单的例子，其他bug可以用这个方法类似解决。

另外，合理地设计测试程序也是很重要的，首先就是别好几条指令一起测，一次我们就测一条指令，比如先充分测ori，然后有了ori之后，测加减法，有了加减法之后测跳转以及其他的指令，最后可以再写一个综合测试程序把所有的都测一遍。不要一起测！！不瞒您说，我连加法都写错了，开始用综合测试程序测的，测到的我的beq没执行，然后我就一直看beq，好长时间之后才发现是我加法有问题，导致了值不符合分支条件。希望大家能引以为鉴。

更新：刚才看讨论区的时候，看到了所谓的implement debug法，这个办法我也曾经误触发过，挺有用的，可以查到很多因为笔误写出的bug。具体操作是：双击Synthesize-XST（就在语法检测旁边，所以我当时点错误触发过这个技能），或者在最上方点击绿色头朝右的三角形,然后等着，看下面的warning和error，复制到IDE或者记事本上一条一条看，对着改基本上就能解决很多问题。

关于命名：

记住一件事：采用from_to（从某模块的某接口到另一模块的某接口）式命名看起来虽然很严谨很nb，但是CPU中并非某个接口只连接另外的一个接口，所以这样命名是一场灾难！就会像我一样在P5中耗费巨大的精力重写代码规范命名！

本文就分享到这里吧，祝大家好运连连，AK P4

posted @ 2019-11-16 21:10 BUAA-Wander 阅读(3359) 评论(4) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Loading

BUAA-Wander's Blog

P4-单周期CPU（Verilog实现）

公告