传统芯片与AI芯片

传统芯片与AI芯片

Ai芯片是现在热门的领域,与传统的芯片相比,算法和架构有着很大的差异,给市场带来的无限的创造空间,让很多的不可能变为可能。

Ai芯片特定的算法比传统芯片更具优势

Ai芯片是具有Al算法的专业芯片,传统的芯片来运行Ai算法,性能会很低,不具备处理能力。在手机终端,执行人脸识别、智能Ai美颜、语音识别,都必须要经过Ai算法开发的GPU来执行。Ai算法与传统芯片的算法有很大的区别,通过卷积、全连接、网络残差这些类型,再用加法和乘法运算,如果确定了运算图形的尺寸,可以确定运算的总数。、

 

 

 Ai芯片NPU单元功能强大,需要大量数据支撑

Ai芯片内置了网络载体NPU,每秒的运算速度达到了1000万次,比传统芯片快30倍,处理图片的速度每分钟2000张,普通芯片只能处理90张。因为Ai芯片就是应用在数据中心的云端和消费者的终端,对数据有很高的要求,通过大量的数据运算来完成各种任务。

 

 

 Ai芯片比传统芯片更加智能化,模拟人脑运算机制

传统的芯片应用的软件都是程序编程,有固定的运行模式,通过执行指令来计算。Ai芯片是模仿人脑的神经,基本的控制系统模拟了人脑运行机制,不用人为解决运算能力而编写大量固定的程序。传统CPU计算是指令的模式,需要上千条指令来完成,Ai芯片只要一个指令就可以完成运算任务。

Ai芯片更加智能化的运算能力颠覆了传统芯片的功能,取代传统芯片的地位,让Ai物联网、人工智能得到更好的发展。

AI芯片系统架构
下面是这个问题的回答核心啦。
传统CPU结构中,除了数据运算,还需要执行数据的存储与读取、指令分析、分支跳转等命令。AI算法通常需要对海量数据进行处理,使用CPU执行算法,将会花费大量的时间,在数据指令的读取分析上,计算效率非常低。

 

 随着AI产业的发展,业界出现了4种AI芯片架构。以冯·诺依曼传统计算架构为基础,用于加速硬件计算能力为主,有GPU、FPGA、ASIC 3种类型为代表,另外是颠覆冯·诺依曼架构,采用类脑神经结构独立设计,提升计算能力。下面详细展开4种不同类型的架构。

 

 

 第一种是GPU,通用的图像处理单元。GPU采用SIMD单指令多数据流的方式,也就是一条指令操作多个数据,拥有数量众多的计算单元和超长的图形图像处理流水线,刚发明的时候主要处理图像领域的并行加速运算,由于GPU内部,大部分的晶体管可以组成各类专用电路、多条流水线,使得GPU的计算速度远高于CPU,并拥有了更加强大的浮点运算能力,可以缓解深度学习算法的训练难题,释放AI潜能,广泛使用在深度学习算法领域。值得注意的一点是,GPU缺乏复杂的运算逻辑单元,必须由CPU进行调度。

 

 英伟达作为GPU巨头,占据了七成的GPU和AI市场份额。在近几年的GTC大会上,CEO黄仁勋满嘴都是AI,可见AI对GPU发展的重要性不言而喻。

 

 

 第二种是FPGA,通俗地理解就是,可以把硬件设计重复烧写在可编程存储器里面,使FPGA芯片可以执行不同的硬件设计和功能,所以被叫做「现场可编程逻辑阵列」。FPGA将指令锁定在硬件架构上,然后使用硬件指令流运行数据,简单理解就是将AI的计算架构用硬件电路实现出来,然后持续的将数据流输入系统,并完成计算。与GPU不同的是,FPGA可以同时拥有硬件流水线并行和数据并行处理能力,适用于以硬件流水线方式处理数据流,因此非常适用于AI推理阶段,相对于CPU与GPU有明显的性能或者能耗优势。

 

 目前使用FPGA用于设计AI芯片国内有深鉴科技、微软Catapult项目。深鉴科技在2018年,以3亿美元的价格卖给FPGA巨头赛灵思。

由于FPGA编程难度大,对开发者要求高,于是出现了ASIC,专用集成电路,主要是实现AI特定算法,要求定制的芯片。所谓定制,就是专门为AI算法,设计出来的架构,可以有助于提高芯片性能和功耗比,缺点是电路设计定制,导致相对开发周期长,不能扩展以外,好处就是在功耗、可靠性、芯片体积、性能等方面都有巨大的优势。

 

 自从2016年Google发布基于ASIC架构的第一代TPU后,华为的昇腾系列芯片、寒武纪、比特大陆、地平线等厂商纷纷入局,即使AI算法发展迅猛,但是基于ASIC的AI芯片仍然是今天的主流。

有人说,真正的人工智能芯片,未来发展的方向,会不会是类脑芯片呢?最后来谈一下,类脑芯片展,类脑芯片直接基于神经形态架构设计,用于模拟人脑功能进行感知方式、行为方式和思维方式的计算。但是研发难度巨大。
2014年,IBM推出第二代TrueNorth芯片,采用28nm工艺技术,里面包括了54亿个晶体管和 4096个处理核,相当于100万个可编程神经元,以及2.56亿个可编程突触,芯片的工作方式类似于人脑的神经元和突触之间的协同。

 

 AI芯片的产业链

现在聊到AI芯片,肯定离不开AI芯片在产业链中的位置。从芯片的整体产业环节来看,最上游的是芯片设计,中游是制造和封测,最后是下游的系统集成及应用。但是具体是怎么分工的吗?AI芯片产业链环节中,这里以华为昇腾AI产业为例。

 

 首先是上游,昇腾910芯片采用的是ASIC专用集成电路,基于达芬奇架构来实现的,达芬奇架构这款IP呢,则是通过华为海思设计的,所以海思是达芬奇这款IP的设计商。

设计完之后,就到中游,分别是AI芯片的晶圆制造和封装测试,但晶圆不仅是在封装时测试,制造后会有一次测试,封装后再进行一次。而现在大部分芯片的制造都依赖于台湾的TSMC,就是大名鼎鼎的台积电,还有中芯国际SIMC等芯片制造商。
最后是AI产业的下游,下游主要为系统集成及应用为主,华为昇腾AI产业作为AI系统集的主要集成商提供昇腾Atlas服务器,然后联合开发商,也就是俗称的ISV,来提供上层的AI解决方案。
AI芯片未来发展趋势
最后就是AI芯片的发展趋势啦,无论是华为昇腾产品的达芬奇架构、英伟达的Tensor Core、还是Google,深度学习需要海量数据进行计算,内存带宽的制约,已经成为整个系统的性能瓶颈。第二个就是海量内存和计算单元,访问频繁切换,导致整体功耗很难降下去。最后便是随着AI产业的快速变化,硬件如何适配算法是个难题。
不妨来预测一下AI芯片的4大发展趋势。
未来10年是加速计算架构变革的新十年。在计算存储一体化方面,把计算单元和存储单元放在一起,使得AI系统的计算和数据吞吐量增大,还能显著地降低功耗。会不会出现一种新型非易失性存储器件,就是在存储阵列里面加上AI计算功能,节省数据搬移操作呢?现在硬件计算能力大于数据读取和访问性能,当计算单元不在是瓶颈,如何减少存储器的访问延时,将会成为下一个研究方向。
通常,离计算越近的存储器速度越快,每字节的成本也越高,同时容量也越受限,因此新型的存储结构将应运而生。

 

 第二个趋势就是,稀疏化计算。随着千亿、到万亿网络模型提出,模型越来越大,但实际不是每个神经元,都能有效激活,这个时候稀疏计算,可以高效减少无用能效。特别是在推荐场景和图神经网络的应用,稀疏已经成为常态。

例如,哈佛大学就该问题提出了优化的五级流水线结构,在最后一级输出了触发信号。在Activation层后对下一次计算的必要性进行预先判断,如果发现这是一个稀疏节点,触发 SKIP信号,避免乘法运算的功耗,以达到减少无用功耗的目的。

 

 第三个趋势是支持更加复杂的AI算子。在标准的SIMD基础上,CNN的特殊结构复用,可以减少总线的数据通讯,Transformer结构对大数据在计算和存储之间切换,或者是在NLP和语音领域经常需要支持的动态shape,都需要合理地分解、映射这些不同复杂结构的算子,到有效的硬件上成为了一个值得研究的方向。

最后就是更快的推理时延和存储位宽。随着苹果、高通、华为都在手机芯片SoC上面推出AI推理硬件IP,近年来在手机SoC上,又引入可学习功能。未来如何在手机SoC上执行更快是业界很关注的一个点,包括经常看视频的抖音、bilibili,都需要对视频进行AI编解码,基于ISP进行AI影像处理。另外在理论计算领域,神经网络计算的位宽从32bit到16bit,出现了混合精度到目前8bit,甚至更低的比特数,都开始慢慢进入实践领域。
AI芯片,最后决定成败的因素会什么呢?应该选择,英伟达的GPU的硬件架构、华为达芬奇架构、Google TPU的脉动阵列架构呢?
总的来说,在ZOMI的观点来看,芯片架构的选择应该服务于整个芯片项目的成功,是很多因素博弈的结果。英伟达今天能在AI领域占据着头部市场,是归功于底层硬件架构,还是完善的软硬件生态呢?这个问题呀,觉得大家应该看得清楚。

 

参考链接:

http://www.getfun001.com/net/typeB/91zhuomianA/3492950

https://blog.csdn.net/m0_37046057/article/details/121172739

posted @   吴建明wujianming  阅读(1763)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2021-02-14 3DPytorch-API NVIDIA Kaolin
2021-02-14 Amazon SageMaker和NVIDIA NGC加速AI和ML工作流
2021-02-14 将Tensor核心引入标准Fortran
2021-02-14 NVIDIA DeepStream 5.0构建智能视频分析应用程序
2021-02-14 稀疏自编码器及TensorFlow实现
2021-02-14 标准自编码器(TensorFlow实现)
2021-02-14 VAE变分自编码器实现
点击右上角即可分享
微信分享提示