总线总结

不同的计算机内部需要通信，例如CPU和内存控制器通过一套协议通信，而内存控制器和内存颗粒通过另一套协议通信。

 CPU   <---> Memory Controller  <-----> Memory Device

而在CPU内部，IFU和IDU需要通过信号通信，IDU和EXU通过信号通信。
软件模块中也有类似的需求，例如Difftest中NEMU需要和Spike通信，NPC需要和NEMU进行通信。

而广义的总线就叫通信系统-> TCP/IP 以太网，网线，RTL信号，系统调用等等
而我们用到的是狭义的总线-硬件模块的通信协议。

最简单的总线

 IFU ->  (inst) -> IDU

主动发起通信的模块叫master(主设备)，响应通信的模块叫做slave(从设备)。
其背后的通信协议有：

master（IFU)往slave(IDU)发送消息(也就是当前的inst)，
协议规定，只要master发送，slave就立即收到
上述的发送行为每个周期都会发生
- 即每个周期master都往slave发送有效的指令
- 单周期处理器就是上述的协议。

较为真实的处理器总线：
IFU并非每个周期都能取到指令

IDU需要等待IFU完成取值后，才能进行译码。

       ->inst ->
IFU  ->valid -> IDU

需要添加valid信号，用来指示何时发送有效的指令。通信协议如下:

master(IFU)需要往slave（IDU）发送消息（当前指令inst）
双方约定，只要master发送，slave立即收到
总结来说只有valid有效的时候IDU才开始工作，但是inst在无时无刻都在传递。

更真实的处理器：
如果IDU并非每周期都能译码指令，

IFU需要㩐带IDU完成当前的译码工作后才能发送下一条指令

      inst -> 
IFU  valid ->  IDU
     <-ready

需要添加ready信号，通信协议如下：

master(IFU)往slave（IDU）发送消息（即当前指令inst）
双方约定，若master发送，仅在ready有效的时候才认为slave收到。
上述发送行为仅在valid有效的时候才发生。
上述发送行为仅在valid有效发生
这就是异步总线，需要注意的点有：
通信发生的时刻无法提前与之，在 valid & ready时才发生，称之为握手。
valid & ready时，master需要暂存消息，避免丢失。

异步总线的RTL实现，也就是接口信号，Chisel提供了Decoupled模板，通过元编程实现异步总线接口。
Decoupled模板自带valid和ready

 class Message extends Bundle {  
  val inst = Output(UInt(32.W))   //定义类Message中有啥，有指令inst32位
}
class IFU extends Module {
  val io = IO(new Bundle { val out = Decoupled(new Message) })  //把Message塞到Decoupled里面，IFU是发送方
  // ...
}
class IDU extends Module {
  val io = IO(new Bundle { val in = Filpped(Decoupled(new Message)) }) //IDU是接受方，Chisel里接受方只需要外套一个Filpped
  // ...
}

用这种高级语言的思想，我们想加一个信号的话只需要：

 class Message extends Bundle {
   val inst = Output(UInt(32.W))
+  val pc = Output(UInt(32.W)) //只需要加一行，其余的指令都不用改
 }

异步总线的RTL实现-模块逻辑
master和slave需要根据握手信号的情况来实现约定的总线协议，其中master的状态转移图：

 # master的状态转移图
   +-+ valid = 0
   | v         valid = 1
1. idle ----------------> 2. wait_ready <-+
   ^                          |      |    | ready = 0
   +--------------------------+      +----+
              ready = 1

master处于空闲，valid就一直等于0，则master下一个状态也是idle。
如果master有消息要发，valid就设置为1，进入下一个状态(wait_ready)。也就是等slave的ready信号就绪
如果valid和ready的信号状态同时为1，就算成功握手，那么master就从wait_ready状态进入到idle状态了。
上面是IDU和IFU的总线协议，那么不同微结构的处理器，只是模块间的通信协议不同。例如：

单周期：每周期上游发送消息均有效，下游均就绪收到新消息。
多周期：模块空闲的时候消息无效，模块忙碌时候不接收新消息，IFU收到WBU的完成信号后在取下一条指令。
流水线：IFU一直取值，各模块每周期都尝试往下游发送消息
乱需执行：下游模块有一个队列，上游只需要把消息发送到队列，即可继续处理新消息

 +-----+ inst  ---> +-----+  ...  ---> +-----+  ...  ---> +-----+
| IFU | valid ---> | IDU | valid ---> | EXU | valid ---> | WBU |
+-----+ <--- ready +-----+ <--- ready +-----+ <--- ready +-----+

分布式控制和集中式控制

                    +--------------+
   +-------------> |  Controller  | <--------------+
   |               +--------------+                |
   |                ^            ^                 |
   v                v            v                 v
+-----+  inst   +-----+   ...   +-----+   ...   +-----+
| IFU | ------> | IDU | ------> | EXU | ------> | WBU |
+-----+         +-----+         +-----+         +-----+

其中集中式控制：控制器需要收集所有模块状态，并决定如何控制各模块的工作。

可扩展性比较低，随着模块数量增加，控制器越来越难设计
分布式控制：各模块的行为仅仅取决于自身状态和下游模块状态，也就是：
各模块可以独立工作，直到下游无法接收消息
容易插入新模块，只需修改上下游模块的接口实现。
所以乱序执行天生就是分布式控制的。

最简单的系统总线就是连接处理器和存储器以及设备之间的总线，其中读是最基本的需求。
而npc中提供的接口pm_read在真实的处理器中是不可能实现的。
对于可读可写的系统总线来说：

 +-----+ raddr[log2(N)-1:0] ---> +-----+
|     | <---        rdata[31:0] |     |
|     | waddr[log2(N)-1:0] ---> |     |
| CPU | wdata[31:0]        ---> | MEM |
|     | wen                ---> |     |
|     | wmask[3:0]         ---> |     |
+-----+                         +-----+

我们需要添加新信号：

写地址 waddr，写数据wdata
并非每个周期都要写，因此需要写使能wen
允许只写入部分的字节，所以需要写掩码wmask，例如lb lh lw
若同时读写同一地址，读出结果可能会undefine（需要RTFM)

而常用的存储器延迟更大，所以我们有了新的需求：

slave需要识别master何时发送有效请求
master也需要识别slave何时可以接收请求

这就需要了握手信号。

握手 = 双方对请求的发送和接收达成共识。而且不会遗漏或重复

异步的系统总线：

 +-----+ raddr[log2(N)-1:0] ---> +-----+
|     | rvalid             ---> |     |
|     | <---             rready |     |
|     | <---        rdata[31:0] |     |
| CPU | waddr[log2(N)-1:0] ---> | MEM |
|     | wdata[31:0]        ---> |     |
|     | wen                ---> |     |
|     | wmask[3:0]         ---> |     |
+-----+                         +-----+

上图就是CPU和Memory之间的交互，其中CPU可读的地址有raddr位宽个，rvalid为1时代表读有效，等待rready，实现读请求raddr的握手。
但是此刻又有新问题了

例如slave读出rdata的时刻无法提前确定
- 例如DRAM会定时对存储单元的电容进行充电刷新，此时需要等待
master也不一定总接收slave读出的数据。（例如上一次读出的数据还没用完，取决于状态机的状态）

而握手的意义就是解耦
通信的一方无法得知另一方处于什么状态，因此也无法的值另一方的处理延迟方法。
但是只要有了握手信号，双方均无需关心上述细节，只要等待握手即可，也就是只要模块遵循同一套通信协议，即可替换/接入，各模块皆可顺利工作。
同时我们也需要有错误处理：

 +-----+ araddr[log2(N)-1:0] ---> +-----+
|     | arvalid             ---> |     |
|     | <---             arready |     |
|     | <---         rdata[31:0] |     |
|     | <---          rresp[1:0] |     |
|     | <---              rvalid |     |
|     | rready              ---> |     |
| CPU | waddr[log2(N)-1:0]  ---> | MEM |
|     | wdata[31:0]         ---> |     |
|     | wmask[3:0]          ---> |     |
|     | wvalid              ---> |     |
|     | <---              wready |     |
|     | <---          bresp[1:0] |     |
|     | <---              bvalid |     |
+-----+ bready              ---> +-----+

读写请求可能会出错，例如超过存储区域的边界，通过resp和bresp（b表示backward)向master回复读写操作是否成功）
优先判断resp是否符合预期值，如果符合的话rdata才有效。
若失败，CPU可抛出异常，通过软件处理。

得到手册的AXI-Lite总线规范
1、将写地址和写数据分开，写地址通过单独握手
2、分组，并将wmask改名为wstrb

 araddr  --->               araddr  --->              araddr  ---> -+
arvalid --->               arvalid --->              arvalid --->  AR
<--- arready               <--- arready              <--- arready -+
<--- rdata                 <--- rdata                
<--- rresp                 <--- rresp                <--- rdata   -+
<--- rvalid                <--- rvalid               <--- rresp    |
rready  --->       1       rready  --->      2       <--- rvalid   R
waddr   --->      ===>     awaddr  --->     ===>     rready  ---> -+
wdata   --->               awvalid ---> *            
wmask   --->               <--- awready *            awaddr  ---> -+
wvalid  --->               wdata   --->              awvalid --->  AW
<--- wready                wmask   --->              <--- awready -+
<--- bresp                 wvalid  --->              
<--- bvalid                <--- wready               wdata   ---> -+
bready  --->               <--- bresp                wstrb   --->  |
                           <--- bvalid               wvalid  --->  W
                           bready  --->              <--- wready  -+
 
                                                     <--- bresp   -+
                                                     <--- bvalid   B
                                                     bready  ---> -+

对于读地址，分为AR的三个通道。也就是araddr arvalid 和arready
读数据的话分为R 也就是rdata rresp rvalid rready
写地址 awaddr awvalid awready
写数据 wdata wstrb wvalid wready

如果想使用总线，那么我们需要把NPC升级为多周期的处理器。
如果想要获得更高的主频，还需要在多模块之间添加暂存信号。
避免两种情况，
例如系统死锁（OS！！），master和slave都在等待对方先将握手信号置为1。

master：我等slave将ready置为1后，再将valid置为1
slave：我等master将valid置为1后，在将ready置为1
相互等待直接G！
活锁（OS!!!)
局部看没卡死，全局看没进展
master和slave都在试探性的握手，但试探失败后都取消握手。

而B就是back bresp 写回复，看写没写成功，bvalid同理。

发表于 2024-07-05 16:28 ink_Bai 阅读(59) 评论(0) 编辑收藏举报

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

最新评论