06. TPU - 随笔分类 - 暗海风

矩阵乘法加速器的设计框架

摘要：以往我分析了一些AI加速器的设计，包括TPU，FSD，华为达芬奇等，无一例外都是从已经给出的设计出发，去分析其优缺点和应用范围。在之前的文章中，关于这些设计是如何完成的，其背后是否有一定设计原则和理念的内容均没有进行探讨。而这两点，实则是设计一个优秀的，可持续迭代的加速器的基础。本文将从矩阵加速器出阅读全文

posted @ 2020-03-10 00:09 暗海风阅读(2443) 评论(2) 推荐(1) 编辑

NVDLA中Winograd卷积的设计

摘要：在 "AI芯片：高性能卷积计算中的数据复用" 曾提到，基于变换域的卷积计算——譬如Winograd卷积——并不能适应算法上对卷积计算多变的需求。但Winograd卷积依旧出现在刚刚公开的ARM Ethos N57和Ethos N37 NPUs的支持特性中，本文将利用Nvidia开源的NVIDIA D 阅读全文

posted @ 2019-10-30 21:13 暗海风阅读(2953) 评论(0) 推荐(1) 编辑

AI芯片：高性能卷积计算中的数据复用

摘要：随着深度学习的飞速发展，对处理器的性能要求也变得越来越高，随之涌现出了很多针对神经网络加速设计的AI芯片。卷积计算是神经网络中最重要的一类计算，本文分析了高性能卷积计算中的数据复用，这是AI芯片设计中需要优化的重点之一，具体思路如下数据复用的动机存储计算分离框架下，针对卷积计算的优化思路针对阅读全文

posted @ 2019-08-28 02:27 暗海风阅读(8891) 评论(2) 推荐(2) 编辑

神经网络加速器应用实例：图像分类

摘要：深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神经网络的计阅读全文

posted @ 2019-07-26 21:37 暗海风阅读(2769) 评论(1) 推荐(1) 编辑

Simple TPU的设计和性能评估

摘要：深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，TPU采用基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神阅读全文

posted @ 2019-07-26 02:45 暗海风阅读(2166) 评论(0) 推荐(0) 编辑

TPU中的指令并行和数据并行

摘要：深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神经网络的计阅读全文

posted @ 2019-07-03 21:53 暗海风阅读(4040) 评论(0) 推荐(1) 编辑

TPU中的脉动阵列及其实现

摘要：深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神经网络的计阅读全文

posted @ 2019-06-11 09:41 暗海风阅读(15349) 评论(7) 推荐(5) 编辑

动手写一个简单版的谷歌TPU

摘要：深度学习飞速发展过程中，人们发现原有的处理器无法满足神经网络这种特定的大量计算，大量的开始针对这一应用进行专用芯片的设计。谷歌的张量处理单元（Tensor Processing Unit，后文简称TPU）是完成较早，具有代表性的一类设计，基于脉动阵列设计的矩阵计算加速单元，可以很好的加速神经网络的计阅读全文

posted @ 2019-06-11 09:40 暗海风阅读(5692) 评论(1) 推荐(2) 编辑

海风

交流分享

随笔分类 - 06. TPU

公告