CPU/GPU/FPGA芯片分析
CPU/GPU/FPGA芯片分析
CPU 由于并行性的限制和操作系统的调度,做通信效率不高,延迟也不稳定。
此外,通信就必然涉及到调度和仲裁,CPU 由于单核性能的局限和核间通信的低效,调度、仲裁性能受限,硬件则很适合做这种重复工作。因此我的博士研究把 FPGA 定义为通信的「大管家」,不管是服务器跟服务器之间的通信,虚拟机跟虚拟机之间的通信,进程跟进程之间的通信,CPU 跟存储设备之间的通信,都可以用 FPGA 来加速。
成也萧何,败也萧何。缺少指令同时是 FPGA 的优势和软肋。
每做一点不同的事情,就要占用一定的 FPGA 逻辑资源。如果要做的事情复杂、重复性不强,就会占用大量的逻辑资源,其中的大部分处于闲置状态。这时就不如用冯·诺依曼结构的处理器。
数据中心里的很多任务有很强的局部性和重复性:一部分是虚拟化平台需要做的网络和存储,这些都属于通信;另一部分是客户计算任务里的,比如机器学习、加密解密。
首先把 FPGA 用于它最擅长的通信,日后也许也会像 AWS 那样把 FPGA 作为计算加速卡租给客户。
不管通信还是机器学习、加密解密,算法都是很复杂的,如果试图用 FPGA 完全取代 CPU,势必会带来
FPGA 逻辑资源极大的浪费,也会提高 FPGA 程序的开发成本。更实用的做法是FPGA 和 CPU 协同工作,局部性和重复性强的归 FPGA,复杂的归 CPU。
当我们用 FPGA 加速了 Bing 搜索、深度学习等越来越多的服务;当网络虚拟化、存储虚拟化等基础组件的数据平面被 FPGA 把持;当 FPGA 组成的「数据中心加速平面」成为网络和服务器之间的天堑……似乎有种感觉,FPGA 将掌控全局,CPU
上的计算任务反而变得碎片化,受 FPGA 的驱使。以往我们是
CPU 为主,把重复的计算任务卸载(offload)到
FPGA 上;以后会不会变成 FPGA 为主,把复杂的计算任务卸载到 CPU 上呢?随着 Xeon + FPGA 的问世,古老的 SoC 会不会在数据中心焕发新生?
国产CPU
国产CPU处理器主要面向PC、服务器、嵌入式系统、手机和平板、安防监控、汽车,以及视频和多媒体处理等应用市场。AspenCore分析师团队汇总了16家国产CPU芯片厂商,其中包括:
- PC/服务器CPU:北京龙芯、上海兆芯、电科申泰、天津飞腾和海光;
- 基于Arm架构的服务器CPU:天津飞腾、华为海思的鲲鹏和阿里平头哥的倚天;
- 手机AP:海思麒麟和紫光展锐虎贲;
- 平板/多媒体和视频处理SoC:全志科技、瑞芯微、北京君正、晶晨半导体
- 安防/视频处理SoC:国科微、中星微
- 嵌入式CPU:苏州国芯
POWER架构CPU:合芯科技这16家国产CPU芯片公司中,有一半已经是上市公司,最新科创板上市的有龙芯中科与国芯科技,海光信息IPO也已获上交所受理。资本市场的支持将进一步推动国产CPU在信创、工业及信息安全应用领域的发展,也有助于CPU厂商提升研发技术实力,并建设和扩展各自的生态系统。
龙芯中科的龙芯系列CPU包括面向行业应用的“龙芯1号”小CPU、面向工控和终端类应用的“龙芯2号”中CPU,以及面向桌面与服务器类应用的“龙芯3号”大CPU。2021年龙芯中科发布了完全自主指令集架构--LoongArch,基于该架构的龙芯3A5000单核性能提升50%,功耗降低30%,与国内CPU产品相比在性能上优势明显。
基于开放的龙芯生态体系,该公司与板卡、整机厂商及基础软件、应用解决方案开发商建立起紧密的合作关系,为下游企业提供基于龙芯处理器的各类开发板及软硬件模块。龙芯中科可以提供32位、64位单核、多核和不同质量等级的处理器及配套芯片,搭载的Loongnix、LoongOS两大系统软件可以适应不同的应用场景。
苏州国芯科技基于自主可控的嵌入式CPU 技术,以及面向信息安全、汽车电子和工业控制、边缘计算和网络通信三大关键应用领域的芯片定制服务,设计开发出一系列自主芯片及模组产品。该公司基于M*Core、PowerPC和RISC
V三大指令集,提供具有自主知识产权的8大系列40余款CPU核,其主要嵌入式CPU内核与Arm内核对比如下:
国产GPU
相对于国产CPU,国产GPU发展更晚,涉及GPU处理器研发的厂商也比较少,国产GPU的性能跟英伟达、AMD和英特尔等全球领先GPU芯片还相距甚远。然而,最近几年GPU在AI应用方面的独特优势,加上资本的追捧,带动了国产GPU的创业热潮。壁仞科技、瀚博半导体和摩尔线程等GPU/AI芯片初创公司融资高达数10亿元,吸引了英伟达和AMD等国际厂商技术人才的加盟,也将推动国产GPU这一高性能芯片细分市场的竞争和发展。
AspenCore分析师团队汇总了9家国产GPU芯片厂商,其中包括:
- 图形处理/渲染GPU:景嘉微、芯动科技、芯瞳半导体、摩尔线程
- 通用计算GPU:天数智芯、登临科技、摩尔线程、壁仞科技
- AI加速GPU:天数智芯、瀚博半导体、壁仞科技、沐曦集成电路
这9家国产GPU厂商中,只有景嘉微是上市公司,芯动科技具有多年的定制芯片设计经验,其他公司都是初创型企业,但都获得了相当可观的风投融资(其中摩尔线程、壁仞科技和瀚博半导体的累积融资金额均超过20亿元)。
芯动科技于2021年底发布的“风华1号” GPU采用12nm 工艺,支持GDDR6
/ GDDR6X(最大速率 19Gbps),容量可选 4GB
/ 8GB / 16GB,支持 HDMI2.1 / DP1.4 /VGA 多路独立输出,支持 X86、ARM、龙芯等指令集;支持 Linux、安卓、麒麟、统信UOS等操作系统;支持鲲鹏 / 安培等服务器平台。“风华1号”分为A型和B型两款,具体性能指标如下图。
天数智芯的7nm通用并行(GPGPU)云端训练芯片BI于2020年12月成功
“点亮”。基于这种全自研通用计算GPGPU芯片,天数智芯的硬件产品聚焦于云端训练及推理,通过自研指令集释放强大的可编程性与应用通用性,提供业界领先的AI算力密度与能效比。它具有针对云端AI训练和HPC通用计算设计的软硬件架构;支持浮点、定点多种精度数据类型;提供超高带宽的本地存储和片间互联扩展。天数智芯可支持ResNet、Vgg、Inception、Alexnet、SSD、Mask R-CNN等通用计算机视觉相关网络模型;提供生态兼容的软件套件;支持多精度数据类型标准&混合训练,支持模型深度优化。
国产FPGA
最近赛灵思被AMD成功收购,这意味着FPGA难以成为一个有规模的独立市场,只能作为高性能计算领域的一种专用处理方式。然而,在5G、工业控制和专用细分应用领域,FPGA仍然有CPU/GPU/AI芯片无法替代的优势。国产FPGA厂商的整体技术实力跟英特尔和赛灵思等国际厂商还有相当的差距,但在中低性能的FPGA市场已经看到几家国产厂商的身影。
AspenCore分析师团队汇总了11家国产FPGA厂商,其中安路科技、紫光国微和复旦微电是上市公司,尽管FPGA业务在紫光国微和复旦微电的总营收中占比不是很大。除了传统FPGA外,还有一些厂商基于FPGA开发出特定应用的软硬件处理方案。比如,易灵思基于Quantum技术的FPGA对“功耗-性能-面积”(PPA)的优化高达4倍,其独特的设计架构可轻松扩展至百万以上逻辑单元(LE)密度,其车规级16nm FPGA针对新能源汽车中的自动驾驶、智能座舱和电气化应用。
联捷科技研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,可将性能和效能提升一个数量级,已获得美国及中国专利。联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用于智能手机云应用、云存储和在线视频网站等市场。
最近在科创板上市的安路科技在FPGA芯片架构方面,已经开发出支持高达600K 逻辑阵列容量的PHOENIX 第一代FPGA 架构,现正开发支持1KK 以上级别逻辑容量、具有良好阵列扩展性的PHOENIX2 第二代FPGA 架构。在系统集成方面,该公司在第一代小容量FPSoC 芯片基础上,将从低功耗和高性能两个方向布局下一代FPSoC 芯片,集成CPU、FPGA和专用数据处理模块,以满足未来应用市场趋势。
在专用EDA 软件方面,安路科技的TangDynasty (TD)
软件是自主开发的FPGA集成开发环境,支持工业界标准的设计输入,包含完整的电路优化流程以及丰富的分析与调试工具,并提供良好的第三方设计验证工具接口,为所有基于安路科技FPGA产品的应用设计提供有力支持。此外,安路科技还将针对PHOENIX2 架构升级软件核心算法,面向FPSoC 芯片开发系统级软件编译工具,有效支持硬件产品的丰富产品线。
35家国产处理器芯片厂商详细信息
参考文献了解
https://mp.weixin.qq.com/s/DoMnVBGprshtZ7jg_9dEmA
https://mp.weixin.qq.com/s/IPOWu66Fvy2hmp7YKQtpAg
人工智能芯片与自动驾驶