随笔分类 -  06. TPU

摘要:以往我分析了一些AI加速器的设计,包括TPU,FSD,华为达芬奇等,无一例外都是从已经给出的设计出发,去分析其优缺点和应用范围。在之前的文章中,关于这些设计是如何完成的,其背后是否有一定设计原则和理念的内容均没有进行探讨。而这两点,实则是设计一个优秀的,可持续迭代的加速器的基础。本文将从矩阵加速器出 阅读全文
posted @ 2020-03-10 00:09 暗海风 阅读(2443) 评论(2) 推荐(1) 编辑
摘要:在 "AI芯片:高性能卷积计算中的数据复用" 曾提到,基于变换域的卷积计算——譬如Winograd卷积——并不能适应算法上对卷积计算多变的需求。但Winograd卷积依旧出现在刚刚公开的ARM Ethos N57和Ethos N37 NPUs的支持特性中,本文将利用Nvidia开源的NVIDIA D 阅读全文
posted @ 2019-10-30 21:13 暗海风 阅读(2953) 评论(0) 推荐(1) 编辑
摘要:随着深度学习的飞速发展,对处理器的性能要求也变得越来越高,随之涌现出了很多针对神经网络加速设计的AI芯片。卷积计算是神经网络中最重要的一类计算,本文分析了高性能卷积计算中的数据复用,这是AI芯片设计中需要优化的重点之一,具体思路如下 数据复用的动机 存储 计算分离框架下,针对卷积计算的优化思路 针对 阅读全文
posted @ 2019-08-28 02:27 暗海风 阅读(8891) 评论(2) 推荐(2) 编辑
摘要:深度学习飞速发展过程中,人们发现原有的处理器无法满足神经网络这种特定的大量计算,大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计 阅读全文
posted @ 2019-07-26 21:37 暗海风 阅读(2769) 评论(1) 推荐(1) 编辑
摘要:深度学习飞速发展过程中,人们发现原有的处理器无法满足神经网络这种特定的大量计算,大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,TPU采用基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神 阅读全文
posted @ 2019-07-26 02:45 暗海风 阅读(2166) 评论(0) 推荐(0) 编辑
摘要:深度学习飞速发展过程中,人们发现原有的处理器无法满足神经网络这种特定的大量计算,大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计 阅读全文
posted @ 2019-07-03 21:53 暗海风 阅读(4040) 评论(0) 推荐(1) 编辑
摘要:深度学习飞速发展过程中,人们发现原有的处理器无法满足神经网络这种特定的大量计算,大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计 阅读全文
posted @ 2019-06-11 09:41 暗海风 阅读(15349) 评论(7) 推荐(5) 编辑
摘要:深度学习飞速发展过程中,人们发现原有的处理器无法满足神经网络这种特定的大量计算,大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计 阅读全文
posted @ 2019-06-11 09:40 暗海风 阅读(5692) 评论(1) 推荐(2) 编辑

点击右上角即可分享
微信分享提示