上一页 1 ··· 150 151 152 153 154 155 156 157 158 ··· 283 下一页
摘要: 图算融合优化示例 概述 图算融合是MindSpore特有的网络性能优化技术。它可以通过自动分析和优化现有网络计算图逻辑,并结合目标硬件能力,对计算图进行计算化简和替代、算子拆分和融合、算子特例化编译等优化,以提升设备计算资源利用率,实现对网络性能的整体优化。相比传统优化技术,图算融合具有多算子跨边界 阅读全文
posted @ 2021-02-25 06:21 吴建明wujianming 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 单精度和半精度混合训练 概述 混合精度训练方法,通过混合使用单精度和半精度数据格式,加速深度神经网络训练的过程,同时保持了单精度训练所能达到的网络精度。混合精度训练能够加速计算过程,同时减少内存使用和存取,并使得在特定的硬件上可以训练更大的模型或batch size。 对于FP16的算子,若给定的数 阅读全文
posted @ 2021-02-25 06:15 吴建明wujianming 阅读(586) 评论(0) 推荐(0) 编辑
摘要: 达芬奇架构NPU 达芬奇架构的核心优势是什么?如何更好地赋能麒麟990? 达芬奇架构,是华为自研的面向AI计算特征的全新计算架构,具备高算力、高能效、灵活可裁剪的特性,是实现万物智能的重要基础。具体来说,达芬奇架构采用3D Cube针对矩阵运算做加速,大幅提升单位功耗下的AI算力,每个AI Core 阅读全文
posted @ 2021-02-24 06:25 吴建明wujianming 阅读(1909) 评论(0) 推荐(0) 编辑
摘要: 3D Cube计算引擎加速运算 华为达芬奇架构的AI芯片Ascend910,同时与之配套的新一代AI开源计算框架MindSpore。 为什么要做达芬奇架构? AI将作为一项通用技术极大地提高生产力,改变每个组织和每个行业。为了实现AI在多平台多场景之间的协同,华为设计达芬奇计算架构,在不同体积和功耗 阅读全文
posted @ 2021-02-24 06:07 吴建明wujianming 阅读(492) 评论(0) 推荐(0) 编辑
摘要: RISC-V与DSA计算机架构 相信所有和计算机体系结构打过交道的朋友们都看过David Patterson与John Hennessy的煌煌巨作,《计算机体系架构:量化研究方法》。两位在计算机架构领域鼎鼎大名的教授,一个来自加州大学伯克利分校,另一个来自斯坦福。 首先上场的是David Patte 阅读全文
posted @ 2021-02-23 06:25 吴建明wujianming 阅读(1345) 评论(0) 推荐(0) 编辑
摘要: 开源软硬一体OpenCV AI Kit(OAK) OpenCV 涵盖图像处理和计算机视觉方面的很多通用算法,是非常有力的研究工具之一,且稳居开发者最喜爱的 AI 工具/框架榜首。 1、会不会被USA禁止啊? b. 不会, Myriad X 可以销售,性能稍低 (嵌入式芯片 4TOPS),被禁的是10 阅读全文
posted @ 2021-02-23 06:01 吴建明wujianming 阅读(903) 评论(0) 推荐(0) 编辑
摘要: GEMM与AutoKernel算子优化 随着AI技术的快速发展,深度学习在各个领域得到了广泛应用。深度学习模型能否成功在终端落地应用,满足产品需求,一个关键的指标就是神经网络模型的推理性能。一大波算法工程师为了算法的部署转岗算子优化工程师。优化代码并不是一件简单的事,要求工程师既要精通计算机体系架构 阅读全文
posted @ 2021-02-23 05:40 吴建明wujianming 阅读(526) 评论(0) 推荐(0) 编辑
摘要: deeplearning搜索空间 搜索空间是神经网络搜索中的一个概念。搜索空间是一系列模型结构的汇集, SANAS主要是利用模拟退火的思想在搜索空间中搜索到一个比较小的模型结构或者一个精度比较高的模型结构。 paddleslim.nas 提供的搜索空间 根据初始模型结构构造搜索空间: MobileN 阅读全文
posted @ 2021-02-21 11:30 吴建明wujianming 阅读(151) 评论(0) 推荐(0) 编辑
摘要: deeplearning算法优化原理目录· 量化原理介绍 · 剪裁原理介绍 · 蒸馏原理介绍 · 轻量级模型结构搜索原理介绍 1. Quantization Aware Training量化介绍1.1 背景近年来,定点量化使用更少的比特数(如8-bit、3-bit、2-bit等)表示神经网络的权重和 阅读全文
posted @ 2021-02-21 10:47 吴建明wujianming 阅读(269) 评论(0) 推荐(0) 编辑
摘要: deeplearning模型库 1. 图像分类 数据集:ImageNet1000类 1.1 量化 分类模型Lite时延(ms) 设备 模型类型 压缩策略 armv7 Thread 1 armv7 Thread 2 armv7 Thread 4 armv8 Thread 1 armv8 Thread 阅读全文
posted @ 2021-02-21 07:23 吴建明wujianming 阅读(210) 评论(0) 推荐(0) 编辑
上一页 1 ··· 150 151 152 153 154 155 156 157 158 ··· 283 下一页