人工智能微控制器体系结构

人工智能微控制器体系结构

Microcontroller architectures evolve for AI

如果把人工智能和物联网交叉,会得到什么?AIoT是一个简单的答案,但是也可以为微控制器提供一个巨大的新应用领域,这是由于神经网络技术的进步,这意味着机器学习不再局限于超级计算机的世界。如今,智能手机应用处理器可以(也确实)为图像处理、推荐引擎和其复杂功能执行人工智能推理。

一个数十亿物联网设备的生态系统将在未来几年内获得机器学习能力             

将这种能力带给不起眼的微控制器代表着一个巨大的机会。想象一下,一个助听器可以使用人工智能过滤谈话中的背景噪音,智能家用电器可以识别用户的脸并切换到个性化设置,还有一个支持人工智能的传感器节点,可以用最小的电池运行数年。在端点处理数据提供了不可忽视的延迟、安全性和隐私优势。             

然而,用微控制器级设备实现有意义的机器学习并非易事。例如,作为人工智能计算的一个关键标准,内存常常受到严重限制。但是,数据科学正在迅速发展以缩小模型尺寸,设备和IP供应商正在通过开发工具和结合为现代机器学习需求量身打造的功能做出回应。

一个数十亿物联网设备的生态系统将在未来几年内获得机器学习能力             

将这种能力带给不起眼的微控制器代表着一个巨大的机会。想象一下,一个助听器可以使用人工智能过滤谈话中的背景噪音,智能家用电器可以识别用户的脸并切换到个性化设置,还有一个支持人工智能的传感器节点,可以用最小的电池运行数年。在端点处理数据提供了不可忽视的延迟、安全性和隐私优势。             

然而,用微控制器级设备实现有意义的机器学习并非易事。例如,作为人工智能计算的一个关键标准,内存常常受到严重限制。但是,数据科学正在迅速发展以缩小模型尺寸,设备和IP供应商正在通过开发工具和结合为现代机器学习需求量身打造的功能做出回应。

TinyML Takes Off

TinyML起飞了             

作为这个行业快速增长的一个标志,TinyML峰会(本月早些时候在硅谷举行的一个新的行业盛会)正在变得越来越强大。据主办方介绍,去年举行的首届峰会有11家赞助公司,而今年的活动有27家,展位早就卖完了,还表示,全球设计师月度见面会的会员人数大幅增长。             

TinyML委员会联合主席、高通公司的Evgeni Gousev在展会开幕致辞中说:“看到了一个新的世界,拥有数万亿台由TinyML技术支持的智能设备,这些设备能够感知、分析并自主行动,为所有人创造一个更健康、更可持续的环境。”。             

Gousev将这种增长归因于更节能的硬件和算法的开发,以及更成熟的软件工具。指出,公司和风投投资正在增加,创业和并购活动也在增加。             

今天,TinyML委员会认为,这项技术已经得到验证,在微控制器中使用机器学习的初始产品将在2-3年内投放市场。“杀手级应用”被认为还有3-5年的时间。             

去年春天,谷歌首次为微控制器演示了TensorFlow框架版本,这是技术验证的一个重要部分。用于微控制器的TensorFlow Lite被设计为在只有数千字节内存的设备上运行(核心运行时在Arm Cortex M3上可容纳16 KB,并且有足够的操作员运行语音关键字检测模型,总共占用22 KB)。只支持推理(不支持训练)。

Big Players

大玩家             

大的微控制器制造商当然在关注着TinyML社区的发展。随着研究使神经网络模型变得更小,机会也越来越大。             

大多数都支持机器学习应用程序。例如,STMicroelectronics有一个扩展包STM32立方体.AI,可以在基于Arm Cortex-M的STM32系列微控制器上映射和运行神经网络。             

Renesas有其e-AI开发环境,允许在微控制器上实现AI推理。有效地将模型转换为可在其E2工作室中使用的形式,与C/C++项目兼容。             

NXP表示,有客户将其低端Kinetis和LPC MCU用于机器学习应用。该公司正在用硬件和软件解决方案拥抱人工智能,尽管主要面向更大的应用处理器和交叉处理器(应用处理器和微控制器之间)。

Strong Arm-ed

超强的ARM             

在微控制器领域的大多数老牌公司都有一个共同点:Arm。嵌入式处理器核心巨头Cortex-M系列在微控制器市场占据主导地位。该公司最近发布了全新的Cortex-M55内核,该内核专为机器学习应用而设计,尤其是与Ethos-U55 AI加速器结合使用时。两者都是为资源受限的环境而设计的。

Arm的Cortex-M55和Ethos-U55串联使用,在手势识别、生物识别和语音识别等应用中有足够的处理能力             

但是创业公司和小公司如何在这个市场上与大公司竞争呢?             

“不是通过建立基于Arm的SOC!因为做得很好,”XMOS首席执行官马克·利佩特笑着说。“与这些公司竞争的唯一方法是拥有架构优势……[这意味着]Xcore在性能方面的内在能力,以及灵活性。”             

XMOS’ Xcore.ai公司其最新发布的语音接口交叉处理器将不会直接与微控制器竞争,这种观点仍然成立。任何一家制造基于ARM的SoC来与大公司竞争的公司最好在秘密策略中有一些非常特别的东西。             

标度电压和频率             

初创公司Eta Compute在TinyML展会上发布了备受期待的超低功耗设备。可用于在功耗预算为100µW的图像处理和传感器融合应用程序中进行机器学习。该芯片使用Arm Cortex-M3内核和NXP DSP内核,其中一个或两个内核都可用于ML工作负载。该公司的秘密酱有几种成分,但关键是如何在连续的基础上,为两个核心调整时钟频率和电压。这节省了大量的功率,尤其是在没有锁相环的情况

Eta Compute的ECM3532使用Arm Cortex-M3内核和NXP CoolFlux DSP内核。机器学习的工作量可以由其中一个或两个来处理             

现在有了可行的竞争对手,包括RISC-V基金会提供的即将到来的指令集架构,为什么ETA计算选择使用ARM核来实现超低功耗机器学习加速?             

“简单的答案是,Arm的生态系统发展得非常好,”特克斯伯里告诉《电子时报》。“与RISC-V相比,(使用Arm)投入生产要容易得多。这种情况将来可能会改变……RISC-V有自己的一系列优势;当然,这对中国市场是有利的,但目前主要着眼于国内和欧洲市场(设备)的生态系统。”             

特克斯伯里指出,AIoT面临的主要挑战是应用的广泛性和多样性。市场相当分散,许多相对不错的应用程序只占少量。然而,加在一起,这个领域可能会扩展到数十亿个设备。             

Tewksbury说:“开发人员面临的挑战是,无法投入时间和金钱为每个用例开发定制解决方案。”。“这就是灵活性和易用性变得绝对重要的地方。这也是选择Arm的另一个原因—因为生态系统在那里,工具也在那里,而且客户很容易快速开发产品并将其快速推向市场,而无需大量定制。”             

几十年来,Arm一直对ISA严格保密,去年10月,Arm终于宣布,将允许客户为处理机器学习等专业工作负载构建自己的定制指令。这种能力,掌握在正确的人手中,也可能提供进一步降低功耗的机会。             

Eta计算还不能利用这一点,因为不适用于现有的Arm核心,因此不适用于Eta正在使用的M3核心。但是,在未来几代产品中,Tewksbury能否看到Eta使用Arm定制指令来计算,从而进一步降低功耗呢?             

“当然,是的,”说。

Alternative ISAs

RISC-V今年备受关注。开源的ISA允许处理器的设计不需要支付许可费,而基于RISC-visa的设计可以像任何其类型的IP一样受到保护。设计者可以选择要添加的扩展,也可以添加自己定制的扩展。             

法国初创企业GreenWaves是几家使用RISC-V内核瞄准超低功耗机器学习空间的公司之一。设备GAP8和GAP9分别使用8核和9核计算集群。

GreenWaves的GAP9超低功耗AI芯片的架构现在使用10个RISC-V核              

GreenWaves负责业务开发的副总裁martincroome向EETimes解释了公司为什么使用RISC-V内核。             

“第一个原因是RISC-V使能够在指令集级别定制核心,这是大量使用的,”Croome说,解释说自定义扩展用于降低机器学习和信号处理工作负载的能力。“当公司成立时,如果想用其处理器架构来实现这一目标,那要么是不可能的,要么就是要花掉一大笔钱。而所要付出的财富,基本上就是投资者的钱流向了另一家公司,这很难证明这一点。”              

GreenWaves的定制扩展使其核心的能耗比未经修改的RISC-V内核提高了3.6倍。但Croome也表示,RISC-V仅仅是因为是新的,所以有基本的技术优势。             

“这是一个非常干净、现代的指令集。没有任何行李。所以从实现的角度来看,RISC-V内核实际上是一个更简单的结构,简单意味着功耗更低。”。             

Croome还提到控制是一个重要因素。GAP8设备在其计算集群中有8个核心,GreenWaves需要对核心执行进行非常细致的控制,以实现最大的功率效率。说,RISC-V实现了这一点。

开玩笑说:“最后,如果能用Arm完成所有这些,也会用Arm来完成所有这些,这将是一个更符合逻辑的选择……因为从来没有人因为购买Arm而被解雇。”。“软件工具的成熟度远高于RISC-V……但也就是说,现在人对RISC-V的关注太多了,以至于这些工具的成熟度正在迅速提高。”             

总之,虽然有人认为Arm在微处理器市场上的地位正在减弱,部分原因是RISC-V的竞争加剧,但该公司的回应是允许一些定制的扩展,并从一开始就开发用于机器学习的新内核。             

事实上,在超低功耗机器学习应用市场上,有Arm和非Arm设备。随着TinyML社区继续致力于减小神经网络模型的规模,开发专用框架和工具,这一领域将发展成为一个健康的应用领域,将支持各种不同的设备类型。

posted @ 2020-07-09 09:41  吴建明wujianming  阅读(362)  评论(0编辑  收藏  举报