足迹

能看不尽景,始是不凡人

 

2020年6月23日

深度学习推理性能优化

摘要: 深度学习推理性能优化 推理性能优化: 一个越来越重要的话题 一些初期的探索和经验 推理优化四部曲 算子优化 图优化 模型压缩 部署优化 前方的路 References 推理性能优化: 一个越来越重要的话题 为什么我们开始关注和重视推理性能的优化。 天时 深度学习的上半场主题是自证, 数据科学家们设计 阅读全文

posted @ 2020-06-23 14:05 姚伟峰 阅读(4420) 评论(12) 推荐(5) 编辑

2019年10月9日

Winograd Convolution 推导 - 从1D到2D

摘要: Winograd Convolution 推导 - 从1D到2D Winograd Convolution 推导 - 从1D到2D 1D Winograd 卷积 2D Winograd卷积 实操粉 理论粉 参考文献 1D Winograd 卷积 1D Winograd算法已经有很多文章讨论了,讨论得 阅读全文

posted @ 2019-10-09 10:51 姚伟峰 阅读(1955) 评论(0) 推荐(3) 编辑

2018年8月30日

Res-Family: From ResNet to SE-ResNeXt

摘要: Res-Family: From ResNet to SE-ResNeXt 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ Res-Family: From ResNet to SE-ResNeXt ResNet(2015 Dec) Paper Network Visu 阅读全文

posted @ 2018-08-30 22:18 姚伟峰 阅读(4855) 评论(0) 推荐(1) 编辑

2018年8月29日

CPU二则

摘要: CPU二则 CPU二则 aligned load & unaligned load non-temporal store(streaming store) 参考文献 aligned load & unaligned load 看CPU指令手册的时候,会看到有两条指令:vmovups & vmovap 阅读全文

posted @ 2018-08-29 08:21 姚伟峰 阅读(1759) 评论(0) 推荐(1) 编辑

2018年8月28日

CPU TFLOPS 计算

摘要: 姚伟峰 CPU峰值算力计算 浮点算力 FP64 TFLOPS计算 AVX FP64 FMA 举个栗子 FP32 TFLOPS计算 AVX FP32 FMA 举个栗子 FP16 TFLOPS计算 Using AVX FP32 FMA AVX FP16 FMA BF16 TFLOPS计算 AVX BF1 阅读全文

posted @ 2018-08-28 21:28 姚伟峰 阅读(10113) 评论(0) 推荐(0) 编辑

2018年4月27日

深度学习专题 - 计算机视觉中的目标检测

摘要: 深度学习专题 - 计算机视觉中的目标检测 姚伟峰 [yaoweifeng0301@126.com] http://www.cnblogs.com/Matrix_Yao/ 深度学习专题 - 计算机视觉中的目标检测 目标检测解决什么问题 目标检测的评价标准 Accuracy mAP (mean Aver 阅读全文

posted @ 2018-04-27 06:22 姚伟峰 阅读(808) 评论(0) 推荐(1) 编辑

2017年12月12日

深度学习框架演进史

摘要: 深度学习框架演进史 姚伟峰 http://www.cnblogs.com/Matrix_Yao/ 深度学习框架演进史 第一代 - 要有光 第二代 - 要有图 第三代 - 要自由 故事没有结束…… 以古为鉴,可以知兴替。-《新唐书 魏征传》 本文主要从设计思路上分析,不考虑生态、分布式等其他应用角度。 阅读全文

posted @ 2017-12-12 11:09 姚伟峰 阅读(1869) 评论(1) 推荐(0) 编辑

2017年9月19日

天池医疗AI大赛支持有感

摘要: 从去年大概11月份开始一直到现在,大部分的精力在天池医疗AI大赛的研发和支持上面,也算深度支持了20几只复赛参赛队伍的复赛进程。总的感觉其实与现在媒体宣传的"中国成为AI大国"balabala这种相悖,而且进入复赛的基本上都是名校背景的,更加深深感觉前路漫漫。从我的角度,始终觉得“Problem S 阅读全文

posted @ 2017-09-19 22:08 姚伟峰 阅读(373) 评论(0) 推荐(0) 编辑

2017年1月17日

Neural Network Virtual Machine

摘要: 深度学习Stack 为什么提出NNVM? 深度学习Stack 为什么提出NNVM? 深度学习框架现状 - “碎片化” 目前,深度学习应用框架呈现出高度的“碎片化(fragmentation)”倾向,这主要是由于下述两个原因: 1. 深度学习正处于商业应用的前期阶段并具有诱人的商业想象力。诱人的商业前 阅读全文

posted @ 2017-01-17 22:38 姚伟峰 阅读(730) 评论(0) 推荐(0) 编辑

RFCN配置参数

摘要: 最近一直被人问这个,索性画张图,省得一遍一遍解释。 阅读全文

posted @ 2017-01-17 22:27 姚伟峰 阅读(560) 评论(0) 推荐(1) 编辑

导航