Verilog 流水线设计

一、什么是流水线

流水线设计就是将组合逻辑系统地分割，并在各个部分（分级）之间插入寄存器，并暂存中间数据的方法。目的是将一个大操作分解成若干的小操作，每一步小操作的时间较小，所以能提高频率，各小操作能并行执行，所以能提高数据吞吐率（提高处理速度）。

二、什么时候用流水线设计

使用流水线一般是时序比较紧张，对电路工作频率较高的时候。典型情况如下：

1）功能模块之间的流水线，用乒乓 buffer 来交互数据。代价是增加了 memory 的数量，但是和获得的巨大性能提升相比，可以忽略不计。
2） I/O 瓶颈，比如某个运算需要输入 8 个数据，而 memroy 只能同时提供 2 个数据，如果通过适当划分运算步骤，将大操作分解成小操作就有可能每次只需要2个数据，使用流水线也会减少面积。
3）片内 sram 的读操作，因为 sram 的读操作本身就是两级流水线，除非下一步操作依赖读结果，否则使用流水线是自然而然的事情。
4）组合逻辑太长，比如(a+b)*c，那么在加法和乘法之间插入寄存器是比较稳妥的做法。

三、使用流水线的优缺点

1）优点：流水线缩短了在一个时钟周期内信号必须通过的通路长度，增加了数据吞吐量，从而可以提高时钟频率，但也导致了数据的延时。举例如下：

例如：一个 2 级组合逻辑，假定每级延迟相同为 Tpd，

无流水线的总延迟就是 2Tpd，可以在一个时钟周期完成，但是时钟周期受限制在 2Tpd；
有流水线时，每一级加入寄存器（延迟为 Tco）后，单级的延迟为 Tpd+Tco，每级消耗一个时钟周期，流水线需要 2 个时钟周期来获得第一个计算结果，称为首次延迟，它要 2 *（Tpd+Tco）。但是执行重复操作时，只要一个时钟周期来获得最后的计算结果，称为吞吐延迟（Tpd+Tco）。可见只要Tco 小于 Tpd，流水线就可以提高速度。

特别需要说明的是，流水线并不减小单次操作的时间，减小的是整个数据的操作时间，请大家认真体会。

2）缺点：功耗增加，面积增加，硬件复杂度增加，特别对于复杂逻辑如 cpu 的流水线而言，流水越深，发生需要 hold 流水线或 reset 流水线的情况时，时间损失越大。所以使用流水线并非有利无害，大家需权衡考虑。

四、举例

假设要实现如下的计算公式：

RGB 转 Ycbcr 的计算公式：
Y = 0.183R + 0.614G + 0.062B + 16;
cb = -0.101R - 0.338G + 0.439B + 128;
cr = 0.439R - 0.399G - 0.040B + 128;

输入到输出有三个 clock 的时延；
第一级流水线计算所有乘法；
第二级流水线计算所有加法，把正的和负的分开进行加法；
第三级流水线计算最终的和，若为负数取 0；

注意，这里的程序只是为了展示如何使用流水线进行代码设计，而RGB 转 Ycbcr的算法细节不用在意！

`timescale 1ns/1ps
module rgb_to_ycbcr(
 input clk,
 input [7 : 0] i_r_8b,
 input [7 : 0] i_g_8b,
 input [7 : 0] i_b_8b,
 
 output [7 : 0] o_y_8b,
 output [7 : 0] o_cb_8b,
 output [7 : 0] o_cr_8b,
 
 output o_h_sync,
 output o_v_sync, 
 output o_data_en 
);
/****************parameters**********************/
//multiply 256
parameter para_0183_10b = 10'd47; //0.183 定点数
parameter para_0614_10b = 10'd157;
parameter para_0062_10b = 10'd16;
parameter para_0101_10b = 10'd26;
parameter para_0338_10b = 10'd86;
parameter para_0439_10b = 10'd112;
parameter para_0399_10b = 10'd102;
parameter para_0040_10b = 10'd10;
parameter para_16_18b = 18'd4096;
parameter para_128_18b = 18'd32768;
/******************************************************/
/**************signals*********************************/
wire sign_cb;
wire sign_cr;
reg[17: 0] mult_r_for_y_18b;
reg[17: 0] mult_r_for_cb_18b;
reg[17: 0] mult_r_for_cr_18b;

reg[17: 0] mult_g_for_y_18b;
reg[17: 0] mult_g_for_cb_18b;
reg[17: 0] mult_g_for_cr_18b;

reg[17: 0] mult_b_for_y_18b;
reg[17: 0] mult_b_for_cb_18b;
reg[17: 0] mult_b_for_cr_18b;

reg[17: 0] add_y_0_18b;
reg[17: 0] add_cb_0_18b;
reg[17: 0] add_cr_0_18b;

reg[17: 0] add_y_1_18b;
reg[17: 0] add_cb_1_18b;
reg[17: 0] add_cr_1_18b;

reg[17: 0] result_y_18b;
reg[17: 0] result_cb_18b;
reg[17: 0] result_cr_18b;

/**************************************************/
/******************initial*************************/
initial
begin
 mult_r_for_y_18b <= 18'd0;
 mult_r_for_cb_18b <= 18'd0;
 mult_r_for_cr_18b <= 18'd0;
 
 mult_g_for_y_18b <= 18'd0;
 mult_g_for_cb_18b <= 18'd0;
 mult_g_for_cr_18b <= 18'd0;
 
 mult_b_for_y_18b <= 18'd0;
 mult_g_for_cb_18b <= 18'd0;
 mult_b_for_cr_18b <= 18'd0;
 
 add_y_0_18b <= 18'd0;
 add_cb_0_18b <= 18'd0;
 add_cr_0_18b <= 18'd0;
 
 add_y_1_18b <= 18'd0;
 add_cb_1_18b <= 18'd0;
 add_cr_1_18b <= 18'd0;
 
 result_y_18b <= 18'd0;
 result_cb_18b <= 18'd0;
 result_cr_18b <= 18'd0;

end
/********************************************************/
 
/**************arithmetic********************************/

//LV1 pipeline : mult
always @ (posedge clk)
begin
 mult_r_for_y_18b <= i_r_8b * para_0183_10b;
 mult_r_for_cb_18b <= i_r_8b * para_0101_10b;
 mult_r_for_cr_18b <= i_r_8b * para_0439_10b;
end
always @ (posedge clk)
begin
 mult_g_for_y_18b <= i_g_8b * para_0614_10b;
 mult_g_for_cb_18b <= i_g_8b * para_0338_10b;
 mult_g_for_cr_18b <= i_g_8b * para_0399_10b;
end
always @ (posedge clk)
begin
 mult_b_for_y_18b <= i_b_8b * para_0062_10b;
 mult_b_for_cb_18b <= i_b_8b * para_0439_10b;
 mult_b_for_cr_18b <= i_b_8b * para_0040_10b;
end

//LV2 pipeline : add
always @ (posedge clk)
begin
 add_y_0_18b <= mult_r_for_y_18b + mult_g_for_y_18b;
 add_y_1_18b <= mult_b_for_y_18b + para_16_18b;
 
 add_cb_0_18b <= mult_b_for_cb_18b + para_128_18b;
 add_cb_1_18b <= mult_r_for_cb_18b + mult_g_for_cb_18b;
 
 add_cr_0_18b <= mult_r_for_cr_18b + para_128_18b;
 add_cr_1_18b <= mult_g_for_cr_18b + mult_b_for_cr_18b;
end

//LV3 pipeline : y + cb + cr
assign sign_cb = (add_cb_0_18b >= add_cb_1_18b);
assign sign_cr = (add_cr_0_18b >= add_cr_1_18b);
always @ (posedge clk)
begin
 result_y_18b <= add_y_0_18b + add_y_1_18b;
 result_cb_18b <= sign_cb ? (add_cb_0_18b - add_cb_1_18b) : 18'd0;
 result_cr_18b <= sign_cr ? (add_cr_0_18b - add_cr_1_18b) : 18'd0;
end

/***********************************************************/
endmodule

参考：http://www.360doc.com/content/17/1112/10/26654031_703080396.shtml

posted @ 2021-12-09 11:53 耐心的小黑阅读(694) 评论(1) 编辑收藏举报

刷新页面返回顶部

万能的小黑呀！！！

Verilog 流水线设计

一、什么是流水线

二、什么时候用流水线设计

三、使用流水线的优缺点

四、举例

公告