足迹

能看不尽景,始是不凡人

 

2022年1月21日

Operator Numerical Check

摘要: Operator Numerical Check 姚伟峰 Operator Numerical Check 基本公式 软件行为 NumPy PyTorch TensorFlow 基本公式 其中: atol: absolute tolerance rtol: relative tolerance Na 阅读全文

posted @ 2022-01-21 14:32 姚伟峰 阅读(166) 评论(0) 推荐(0) 编辑

2021年12月30日

如何估算模型训练T(FL)OPS efficiency

摘要: Naive方法 以Torch Vision ResNet50-v1.5为例。 Step 1: 获取模型的前向理论需求MACs(Multiply–ACcumulate) 可使用thop得到模型的前向MACS。使用如下代码可得Torch Vision ResNet50-v1.5的前向MACs为4.112 阅读全文

posted @ 2021-12-30 08:43 姚伟峰 阅读(375) 评论(0) 推荐(0) 编辑

2021年10月26日

Intel Architecture Day Takeaways

摘要: Intel Architecture Day Takeaways 姚伟峰 Intel Architecture Day Takeaways Key Messages Problems To Be Solved Intel’s Answer SiPs CPU GPU IPU Thoughts Abou 阅读全文

posted @ 2021-10-26 14:14 姚伟峰 阅读(128) 评论(0) 推荐(0) 编辑

2021年7月26日

Transformer block拆解

摘要: Transformer block拆解 基本结构 Zoom in Feed Forward子模块 典型模型基本参数 References 基本结构 basic参数 or : total number of transformer blocks or : number of units in each 阅读全文

posted @ 2021-07-26 18:54 姚伟峰 阅读(1209) 评论(0) 推荐(0) 编辑

2021年7月23日

大得不同:推荐系统模型与NLP模型

摘要: 大得不同:推荐系统模型与NLP模型 推荐系统和自然语言处理是大模型高发的两大应用领域,在大的特征下,它们又有各自的特点。下面以推荐系统的代表模型DLRM(Deep Learning Recommendation Model)和GPT-3(Generative Pre-Training)为例说明。 D 阅读全文

posted @ 2021-07-23 22:09 姚伟峰 阅读(677) 评论(0) 推荐(0) 编辑

2021年7月21日

推荐系统推理优化

摘要: 推荐系统推理优化 推荐系统(RecSys) - “沉默的大多数” 互联网企业 算力提供商 RecSys黑盒 输入-输出 KPI RecSys算法模型 RecSys算法分类 DNN RecSys模型范式 典型DNN RecSys模型 WDL DIN DIEN DLRM DNN RecSys模型特征 S 阅读全文

posted @ 2021-07-21 05:58 姚伟峰 阅读(986) 评论(0) 推荐(0) 编辑

2021年2月18日

极简算法史

摘要: 不认识整体就不可能认识局部,同样,不认识局部也不可能认识整体。 - Blaise Pascal 这本书,不是一部算法简史,而是一部计算科学简史。或者如副标题所言,讲的是”从数学到机器的故事”。作者从历史的角度,把数学、逻辑学和计算机这三个学科,溯源追流,统一到计算这个核心命题上。 计算机出现以前的故 阅读全文

posted @ 2021-02-18 10:56 姚伟峰 阅读(213) 评论(0) 推荐(1) 编辑

2020年9月11日

用L2 距离做MIP、MCS排序

摘要: 姚伟峰 [yaoweifeng0301@126.com] http://www.cnblogs.com/Matrix_Yao/ 用L2 Metric做MIP、MCS排序 问题 MIP (Maximum Inner Product) MCS (Maximum Cosine Similarity) 转换 阅读全文

posted @ 2020-09-11 15:29 姚伟峰 阅读(377) 评论(0) 推荐(0) 编辑

2020年9月1日

27倍性能之旅 - 以大底库全库向量召回为例谈Profiling驱动的性能优化

摘要: 问题 Problem kNN(k Nearest Neighbor)定义 给定一个查询向量,按照某个选定的准则(如欧式距离),从底库中选择个与查询向量最相似或者最邻近的向量的过程。 输入 查询向量(query): 底库(database): , 库中有个向量,每个向量的维度为,即 输出 底库中与查询 阅读全文

posted @ 2020-09-01 09:41 姚伟峰 阅读(964) 评论(1) 推荐(0) 编辑

2020年6月23日

CPU深度学习模型推理性能抖动问题

摘要: 问题 客户在其环境中发现推理延时毛刺问题,如下: 模型为ResNet-152 v1 FP32推理。 从log可见,抖动出现的频率还比较高,且双路时抖动时延高达平均时延的20倍左右,已经会影响客户的SLA(Service Level Agreement)。 初步排查 环境是裸机还是云主机? 裸机 绑核 阅读全文

posted @ 2020-06-23 14:43 姚伟峰 阅读(820) 评论(3) 推荐(1) 编辑

导航