代码改变世界

计算机组成原理 — FPGA 现场可编程门阵列

2019-08-15 16:55  云物互联  阅读(1950)  评论(0编辑  收藏  举报

目录

FPGA

FPGA(Field Programmable Gate Array,现场可编程门阵列),它是在 PLA、PAL、GAL、CPLD 等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。

FPGA 普遍用于实现数字电路模块,用户可对 FPGA 内部的逻辑模块和 I/O 模块重新配置,以实现用户的需求。它还具有静态可重复编程和动态在系统重构的特性,使得硬件的功能可以像软件一样通过编程来修改。可以毫不夸张的讲,FPGA 能完成任何数字器件的功能,下至简单的 74 电路,上至高性能 CPU,都可以用 FPGA 来实现。FPGA 如同一张白纸或是一堆积木,工程师可以通过传统的原理图输入法,或是硬件描述语言自由的设计一个数字系统。

在这里插入图片描述
相对于 PROM、PAL/GAL、CPLD 而言,FPGA 规模更大性能更高。
在这里插入图片描述
FPGA 芯片主流生产厂家包括 Xilinx、Altera、Lattice、Microsemi,其中前两家的市场份额合计达到 88%。目前 FPGA 主流厂商全部为美国厂商。国产 FPGA 由于研发起步较美国晚至少 20 年,目前还处于成长期,仅限于低端,在通信市场还没有成熟应用。2015 年 12 月,Intel 公司斥资 167 亿美元收购了 Altera 公司。

Altera 被收购后不久即制定了英特尔处理器与 FPGA 集成的产品路线图。这两种产品集成的好处是可以提供创新的异构多核架构,适应例如人工智能等新市场的需求,同时能大幅缩减功耗。
在这里插入图片描述

FPGA 的应用场景

FPGA 在航天、军工、电信领域有非常成熟和广泛的应用。以电信领域为例,在电信设备一体机阶段,FPGA 由于其编程的灵活性以及高性能被应用网络协议解析以及接口转换。在 NFV 场景中,FPGA 基于通用服务器和 Hypervisor 实现网元数据面 5 倍的性能提升,同时能够被 OpenStack Cyborg 硬件加速框架管理编排。在云时代,FPGA 已经被作为基本 IaaS 资源在公有云提供开发服务和加速服务,AWS、华为、BAT 均有类似通用服务提供。截至目前,Intel 的 Stratix 10 器件已被成功应用于微软实时人工智能云平台 Brainwave 项目。

FPGA 的技术难点

  1. 编程门槛高:硬件描述语言不同于软件开发语言,需要开发者对底层硬件有着较深刻的认识。因此人才也就成为限制 FPGA 应用的一个重要因素。据了解,目前国内从事 FPGA 开发的人员初步估计大约两万多人。
  2. 集成难度较大:FPGA 开发与应用需要软硬件的协同,包括使用高级语言的系统建模、硬件代码(电路)设计、硬件代码仿真、底层驱动软件与硬件逻辑的联调等等。
  3. 开发周期相对软件要长:硬件开发比软件开发过程复杂,调试周期也被拉长。
  4. 很难获取独立逻辑 IP

FPGA 的工作原理

FPGA 采用了逻辑单元阵列 LCA(Logic Cell Array)这样一个概念,内部主要包括可配置逻辑模块 CLB(Configurable Logic Block)、输入输出模块 IOB(Input Output Block)和内部连线(Interconnect)三个部分。FPGA 是可编程器件,与传统逻辑电路和门阵列(如:PAL,GAL 及 CPLD 器件)相比,FPGA 具有不同的结构。FPGA 利用小型查找表(16×1RAM)来实现组合逻辑,每个查找表连接到一个 D 触发器的输入端,触发器再来驱动其他逻辑电路或驱动 I/O,由此构成了既可实现组合逻辑功能,又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到 I/O 模块。FPGA 的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与 I/O 间的联接方式,并最终决定了 FPGA 所能实现的功能,FPGA 允许无限次的编程。

FPGA 的体系结构

在这里插入图片描述

  • 可配置逻辑块 CLB(Configurable Logic Block):CLB 是 FPGA 的基本逻辑单元。实际数量和特性会依器件的不同而改变,但是每个 CLB 都包含一个由 4 或 6 个输入、若干选择电路(多路复用器等)和触发器组成的可配置开关矩阵。开关矩阵具有高度的灵活性,经配置可以处理组合型逻辑、移位寄存器或 RAM。

  • 输入输出块 IOB(Input Output Block):FPGA 可支持多种 I/O 标准,因而可以为系统设计提供理想的接口桥接。FPGA 内的 I/O 按 Bank 分组,每个 Bank 能独立支持不同的 I/O 标准。目前最先进的 FPGA 提供了十多个 I/O Bank,能够提供灵活的 I/O 支持。

  • 内部连线(Interconnect):CLB 提供了逻辑性能,灵活的互连布线则负责在 CLB 和 I/O 之间传递信号。布线有几种类型,从设计用于专门实现 CLB 互连(短线资源)、到器件内的高速水平和垂直长线(长线资源)、再到时钟与其它全局信号的全局低 Skew 布线(全局性专用布线资源)。一般,各厂家设计软件会将互连布线任务隐藏起来,用户根本看不到,从而大幅降低了设计复杂性。

  • 其它内嵌单元:包括 RAM、DSP、DCM(数字时钟管理模块)及其它特定接口硬核等。

FPGA 的开发

FPGA 的设计流程就是利用 EDA 开发软件和编程工具对 FPGA 芯片进行开发的过程。FPGA 的开发流程一般包括:

  1. 功能定义/器件选型:在 FPGA 设计项目开始之前,必须有系统功能的定义和模块的划分,另外就是要根据任务要求,如系统的功能和复杂度,对工作速度和器件本身的资源、成本、以及连线的可布性等方面进行权衡,选择合适的设计方案和合适的器件类型。

  2. 设计输入:指使用硬件描述语言将所设计的系统或电路用代码表述出来。最常用的硬件描述语言是 Verilog HDL。

  3. 功能仿真:指在逻辑综合之前对用户所设计的电路进行逻辑功能验证。仿真前,需要搭建好测试平台并准备好测试激励,仿真结果将会生成报告文件和输出信号波形,从中便可以观察各个节点信号的变化。如果发现错误,则返回设计修改逻辑设计。常用仿真工具有 Model Tech 公司的 ModelSim、Sysnopsys 公司的 VCS 等软件。

  4. 逻辑综合:所谓综合就是将较高级抽象层次的描述转化成较低层次的描述。综合优化根据目标与要求优化所生成的逻辑连接,使层次设计平面化,供 FPGA 布局布线软件进行实现。就目前的层次来看,综合优化是指将设计输入编译成由与门、或门、非门、RAM、触发器等基本逻辑单元组成的逻辑连接网表,而并非真实的门级电路。真实具体的门级电路需要利用 FPGA 制造商的布局布线功能,根据综合后生成的标准门级结构网表来产生。为了能转换成标准的门级结构网表,HDL 程序的编写必须符合特定综合器所要求的风格。常用的综合工具有 Synplicity 公司的 Synplify、Synplify Pro 软件以及各个 FPGA 厂家自己推出的综合开发工具。

  5. 布局布线与实现:可理解为利用实现工具把逻辑映射到目标器件结构的资源中,决定逻辑的最佳布局,选择逻辑与输入输出功能链接的布线通道进行连线,并产生相应文件(如配置文件与相关报告);实现是将综合生成的逻辑网表配置到具体的 FPGA 芯片上。由于只有 FPGA 芯片生产商对芯片结构最为了解,所以布局布线必须选择芯片开发商提供的工具。

  6. 编程调试:设计的最后一步就是编程调试。芯片编程是指产生使用的数据文件(位数据流文件,Bitstream Generaon),将编程数据加载到 FPGA 芯片中;之后便可进行上板测试。最后将 FPGA 文件(如 .bit 文件)从电脑下载到单板上的 FPGA 芯片中。

FPGA 的使用

FPGA 开发完毕后,最终得到验证好的加载文件,输出加载文件后,即可开始正常业务处理和验证:

  1. 逻辑加载;
  2. 单板软件加载逻辑后,需要复位逻辑;
  3. 复位完成后,软件需等待等待一段时间至逻辑锁相环工作稳定;
  4. 软件启动对逻辑的外部 RAM、内部 Block RAM、DDRC 等的自检操作;
  5. 软件完成自检以后,对逻辑所有可写 RAM 空间及寄存器进行初始化操作;
  6. 初始化完毕,软件参考逻辑芯片手册配置表项及寄存器;
  7. 逻辑准备好,可以开始处理业务。

FPGA 的优缺点

优点

  • FPGA 由逻辑单元、RAM、乘法器等硬件资源组成,通过将这些硬件资源合理组织,可实现乘法器、寄存器、地址发生器等硬件电路。
  • FPGA 可通过使用框图或者 Verilog HDL 来设计,从简单的门电路到 FIR 或者 FFT 电路。
  • FPGA 可无限地重新编程,加载一个新的设计方案只需几百毫秒,利用重配置可以减少硬件的开销。
  • FPGA 的工作频率由 FPGA 芯片以及设计决定,可以通过修改设计或者更换更快的芯片来达到某些苛刻的要求(当然,工作频率也不是无限制的可以提高,而是受当前的 IC 工艺等因素制约)。

缺点

  • FPGA 的所有功能均依靠硬件实现,无法实现分支条件跳转等操作。
  • FPGA 只能实现定点运算。

FPCA 依靠硬件来实现所有的功能,速度上可以和专用芯片相比,但设计的灵活度与通用处理器相比有很大的差距。

参考文档

https://mp.weixin.qq.com/s/3IH5GQZXJcePrK425onT4A