不同的计算机内部需要通信,例如CPU和内存控制器通过一套协议通信,而内存控制器和内存颗粒通过另一套协议通信。

CPU   <---> Memory Controller  <-----> Memory Device

而在CPU内部,IFU和IDU需要通过信号通信,IDU和EXU通过信号通信。
软件模块中也有类似的需求,例如Difftest中NEMU需要和Spike通信,NPC需要和NEMU进行通信。

而广义的总线就叫通信系统-> TCP/IP 以太网,网线,RTL信号,系统调用等等
而我们用到的是狭义的总线-硬件模块的通信协议。


最简单的总线

IFU ->  (inst) -> IDU

主动发起通信的模块叫master(主设备),响应通信的模块叫做slave(从设备)。
其背后的通信协议有:

  • master(IFU)往slave(IDU)发送消息(也就是当前的inst),
  • 协议规定,只要master发送,slave就立即收到
  • 上述的发送行为每个周期都会发生
    • 即每个周期master都往slave发送有效的指令
    • 单周期处理器就是上述的协议。

较为真实的处理器总线:
IFU并非每个周期都能取到指令

  • IDU需要等待IFU完成取值后,才能进行译码。
      ->inst ->
IFU  ->valid -> IDU

需要添加valid信号,用来指示何时发送有效的指令。通信协议如下:

  • master(IFU)需要往slave(IDU)发送消息(当前指令inst)
  • 双方约定,只要master发送,slave立即收到
    总结来说只有valid有效的时候IDU才开始工作,但是inst在无时无刻都在传递。

更真实的处理器:
如果IDU并非每周期都能译码指令,

  • IFU需要㩐带IDU完成当前的译码工作后才能发送下一条指令
     inst -> 
IFU  valid ->  IDU
     <-ready

需要添加ready信号,通信协议如下:

  • master(IFU)往slave(IDU)发送消息(即当前指令inst)
  • 双方约定 ,若master发送,仅在ready有效的时候才认为slave收到。
  • 上述发送行为仅在valid有效的时候才发生。
  • 上述发送行为仅在valid有效发生
    这就是异步总线,需要注意的点有:
  • 通信发生的时刻无法提前与之,在 valid & ready时才发生,称之为握手。
  • valid & ready时,master需要暂存消息,避免丢失。

异步总线的RTL实现,也就是接口信号,Chisel提供了Decoupled模板,通过元编程实现异步总线接口。
Decoupled模板自带valid和ready

class Message extends Bundle {  
  val inst = Output(UInt(32.W))   //定义类Message中有啥,有指令inst32位
}
class IFU extends Module {
  val io = IO(new Bundle { val out = Decoupled(new Message) })  //把Message塞到Decoupled里面,IFU是发送方
  // ...
}
class IDU extends Module {
  val io = IO(new Bundle { val in = Filpped(Decoupled(new Message)) }) //IDU是接受方,Chisel里接受方只需要外套一个Filpped
  // ...
}

用这种高级语言的思想,我们想加一个信号的话只需要:

class Message extends Bundle {
   val inst = Output(UInt(32.W))
+  val pc = Output(UInt(32.W)) //只需要加一行,其余的指令都不用改
 }

异步总线的RTL实现-模块逻辑
master和slave需要根据握手信号的情况来实现约定的总线协议,其中master的状态转移图:

# master的状态转移图
   +-+ valid = 0
   | v         valid = 1
1. idle ----------------> 2. wait_ready <-+
   ^                          |      |    | ready = 0
   +--------------------------+      +----+
              ready = 1

master处于空闲,valid就一直等于0,则master下一个状态也是idle。
如果master有消息要发,valid就设置为1,进入下一个状态(wait_ready)。也就是等slave的ready信号就绪
如果valid和ready的信号状态同时为1,就算成功握手,那么master就从wait_ready状态进入到idle状态了。
上面是IDU和IFU的总线协议,那么不同微结构的处理器,只是模块间的通信协议不同。例如:

  • 单周期:每周期上游发送消息均有效,下游均就绪收到新消息。
  • 多周期:模块空闲的时候消息无效,模块忙碌时候不接收新消息,IFU收到WBU的完成信号后在取下一条指令。
  • 流水线:IFU一直取值,各模块每周期都尝试往下游发送消息
  • 乱需执行:下游模块有一个队列,上游只需要把消息发送到队列,即可继续处理新消息
+-----+ inst  ---> +-----+  ...  ---> +-----+  ...  ---> +-----+
| IFU | valid ---> | IDU | valid ---> | EXU | valid ---> | WBU |
+-----+ <--- ready +-----+ <--- ready +-----+ <--- ready +-----+

分布式控制和集中式控制

                   +--------------+
   +-------------> |  Controller  | <--------------+
   |               +--------------+                |
   |                ^            ^                 |
   v                v            v                 v
+-----+  inst   +-----+   ...   +-----+   ...   +-----+
| IFU | ------> | IDU | ------> | EXU | ------> | WBU |
+-----+         +-----+         +-----+         +-----+

其中集中式控制:控制器需要收集所有模块状态,并决定如何控制各模块的工作。

  • 可扩展性比较低,随着模块数量增加,控制器越来越难设计
    分布式控制:各模块的行为仅仅取决于自身状态和下游模块状态,也就是:
  • 各模块可以独立工作,直到下游无法接收消息
  • 容易插入新模块,只需修改上下游模块的接口实现。
    所以乱序执行天生就是分布式控制的。

最简单的系统总线就是连接处理器和存储器以及设备之间的总线,其中读是最基本的需求。
而npc中提供的接口pm_read在真实的处理器中是不可能实现的。
对于可读可写的系统总线来说:

+-----+ raddr[log2(N)-1:0] ---> +-----+
|     | <---        rdata[31:0] |     |
|     | waddr[log2(N)-1:0] ---> |     |
| CPU | wdata[31:0]        ---> | MEM |
|     | wen                ---> |     |
|     | wmask[3:0]         ---> |     |
+-----+                         +-----+

我们需要添加新信号:

  • 写地址 waddr,写数据wdata
  • 并非每个周期都要写,因此需要写使能wen
    允许只写入部分的字节,所以需要写掩码wmask,例如lb lh lw
    若同时读写同一地址,读出结果可能会undefine(需要RTFM)

而常用的存储器延迟更大, 所以我们有了新的需求:

  • slave需要识别master何时发送有效请求
  • master也需要识别slave何时可以接收请求

这就需要了握手信号。

  • 握手 = 双方对请求的发送和接收达成共识。 而且不会遗漏或重复

异步的系统总线:

+-----+ raddr[log2(N)-1:0] ---> +-----+
|     | rvalid             ---> |     |
|     | <---             rready |     |
|     | <---        rdata[31:0] |     |
| CPU | waddr[log2(N)-1:0] ---> | MEM |
|     | wdata[31:0]        ---> |     |
|     | wen                ---> |     |
|     | wmask[3:0]         ---> |     |
+-----+                         +-----+

上图就是CPU和Memory之间的交互,其中CPU可读的地址有raddr位宽个,rvalid为1时代表读有效 ,等待rready,实现读请求raddr的握手。
但是此刻又有新问题了

  • 例如slave读出rdata的时刻无法提前确定
    • 例如DRAM会定时对存储单元的电容进行充电刷新,此时需要等待
  • master也不一定总接收slave读出的数据。(例如上一次读出的数据还没用完,取决于状态机的状态)

而握手的意义就是解耦
通信的一方无法得知另一方处于什么状态,因此也无法的值另一方的处理延迟方法。
但是只要有了握手信号,双方均无需关心上述细节,只要等待握手即可,也就是只要模块遵循同一套通信协议,即可替换/接入,各模块皆可顺利工作。
同时我们也需要有错误处理:

+-----+ araddr[log2(N)-1:0] ---> +-----+
|     | arvalid             ---> |     |
|     | <---             arready |     |
|     | <---         rdata[31:0] |     |
|     | <---          rresp[1:0] |     |
|     | <---              rvalid |     |
|     | rready              ---> |     |
| CPU | waddr[log2(N)-1:0]  ---> | MEM |
|     | wdata[31:0]         ---> |     |
|     | wmask[3:0]          ---> |     |
|     | wvalid              ---> |     |
|     | <---              wready |     |
|     | <---          bresp[1:0] |     |
|     | <---              bvalid |     |
+-----+ bready              ---> +-----+

读写请求可能会出错,例如超过存储区域的边界,通过resp和bresp(b表示backward)向master回复读写操作是否成功)
优先判断resp是否符合预期值,如果符合的话rdata才有效。
若失败,CPU可抛出异常,通过软件处理。

得到手册的AXI-Lite总线规范
1、将写地址和写数据分开,写地址通过单独握手
2、分组,并将wmask改名为wstrb

araddr  --->               araddr  --->              araddr  ---> -+
arvalid --->               arvalid --->              arvalid --->  AR
<--- arready               <--- arready              <--- arready -+
<--- rdata                 <--- rdata                
<--- rresp                 <--- rresp                <--- rdata   -+
<--- rvalid                <--- rvalid               <--- rresp    |
rready  --->       1       rready  --->      2       <--- rvalid   R
waddr   --->      ===>     awaddr  --->     ===>     rready  ---> -+
wdata   --->               awvalid ---> *            
wmask   --->               <--- awready *            awaddr  ---> -+
wvalid  --->               wdata   --->              awvalid --->  AW
<--- wready                wmask   --->              <--- awready -+
<--- bresp                 wvalid  --->              
<--- bvalid                <--- wready               wdata   ---> -+
bready  --->               <--- bresp                wstrb   --->  |
                           <--- bvalid               wvalid  --->  W
                           bready  --->              <--- wready  -+

                                                     <--- bresp   -+
                                                     <--- bvalid   B
                                                     bready  ---> -+

对于读地址,分为AR的三个通道。也就是araddr arvalid 和arready
读数据的话分为R 也就是rdata rresp rvalid rready
写地址 awaddr awvalid awready
写数据 wdata wstrb wvalid wready


如果想使用总线,那么我们需要把NPC升级为多周期的处理器。
如果想要获得更高的主频,还需要在多模块之间添加暂存信号。
避免两种情况,
例如系统死锁(OS!!),master和slave都在等待对方先将握手信号置为1。

  • master:我等slave将ready置为1后,再将valid置为1
  • slave:我等master将valid置为1后,在将ready置为1
    相互等待直接G!
    活锁(OS!!!)
    局部看没卡死,全局看没进展
    master和slave都在试探性的握手,但试探失败后都取消握手。

而B就是back bresp 写回复,看写没写成功,bvalid同理。