吴建明wujianming

2024年9月2日

摘要：量化方法对比 QAT 可以达到的精度较高，但是往往需要较多的量化训练时间，量化成本比较大。PTQ 的量化过程比较迅速，只需要少量数据集来校准，但是量化后精度往往损失较多，见表7-1。表7-1 量化方法参数对比量化方法功能经典适用场景使用条件易用性精度损失预期收益量化训练 (QAT) 阅读全文

posted @ 2024-09-02 06:11 吴建明wujianming 阅读(68) 评论(0) 推荐(0) 编辑

深度学习模型优化杂谈

摘要：深度学习模型优化概述模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。基本介绍随着神经网络模型的复杂性和规模不断增加，模型对存储空间和计算资源的需求越来越多，使得部署和运行成本显著上升。模型压缩的目标是阅读全文

posted @ 2024-09-02 06:05 吴建明wujianming 阅读(108) 评论(0) 推荐(0) 编辑

2024年8月29日

错误处理、cuda模型、GPU架构杂谈

摘要：错误处理、cuda模型、GPU架构杂谈错误处理所有编程都需要对错误进行处理，早起的编码错误，编译器会帮搞定，内存错误也能观察出来，但是有些逻辑错误很难发现，甚至到了上线运行时才会被发现，而且有些厉害的bug复现会很难，不总出现，但是很致命，而且CUDA基本都是异步执行的，当错误出现的时候，不一定阅读全文

posted @ 2024-08-29 12:47 吴建明wujianming 阅读(37) 评论(0) 推荐(0) 编辑

编写CUDA核函数验与证核函数杂谈

摘要：编写核函数核函数也是一个函数，但是声明核函数有一个比较模板化的方法： global__ void kernel_name(argument list); 注意：声明和定义是不同的，这点CUDA与C语言是一致的在C语言函数前没有的限定符global，CUDA C中还有一些其他在C中没有的限定符，见阅读全文

posted @ 2024-08-29 12:42 吴建明wujianming 阅读(36) 评论(0) 推荐(0) 编辑

GPU的Fermi 架构与Kepler架构杂谈

摘要： Fermi 架构 Fermi架构是第一个完整的GPU架构，如图10-15所示。图10-15 Fermi架构是第一个完整的GPU架构 Fermi架构逻辑图，如图10-15所示，具体数据如下: 1）512个加速核心，CUDA核 2）每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU，和一个浮点数阅读全文

posted @ 2024-08-29 12:38 吴建明wujianming 阅读(147) 评论(0) 推荐(0) 编辑

CUDA编程结构、存储管理、线程管理杂谈

摘要： CUDA编程结构、存储管理、线程管理杂谈 CUDA编程结构一个异构环境，通常有多个CPU多个GPU，他们都通过PCIe总线相互通信，也是通过PCIe总线分隔开的。所以要区分一下两种设备的内存： 1）主机：CPU及其内存 2）设备：GPU及其内存这两个内存从硬件到软件都是隔离的（CUDA6.0 以阅读全文

posted @ 2024-08-29 12:29 吴建明wujianming 阅读(61) 评论(0) 推荐(0) 编辑

2024年8月27日

OpenCL+GCC+TVM+LLVM+MLIR

摘要： OpenCL+GCC+TVM+LLVM+MLIR 如何在使用OpenCL、GCC、TVM、LLVM和MLIR的环境中编译和链接一个项目。提供一个使用C++和这些工具链进行简单计算的示例。首先，确保已经安装了OpenCL、GCC、TVM、LLVM和MLIR。接下来，需要安装相应工具集，例如： # 阅读全文

posted @ 2024-08-27 03:33 吴建明wujianming 阅读(94) 评论(0) 推荐(0) 编辑

2024年8月15日

分布式训练策略杂谈

摘要：分布式训练策略杂谈 5.1 常见的分布式并行策略 5.1.1 为什么分布式训练越来越流行近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中，一个共同的特点就是模型规模越来越大，比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80 阅读全文

posted @ 2024-08-15 07:49 吴建明wujianming 阅读(72) 评论(0) 推荐(0) 编辑

2024年8月13日

计算机体系结构技术杂谈（下）

摘要：计算机体系结构技术杂谈（下） 2.8 加速Transformer：稀疏注意力加速器分析 1. 稀疏注意力加速器简介近年来， Transformer模型在深度学习的各个领域，包括自然语言处理、图像分类、图像及语音生成等方面，都取得了远超于传统神经网络模型的表现。最近的ChatGPT和各类基于Tran 阅读全文

posted @ 2024-08-13 06:40 吴建明wujianming 阅读(53) 评论(0) 推荐(0) 编辑

计算机体系结构技术杂谈（中）

摘要：计算机体系结构技术杂谈（中）例2：进阶算法基础算法无法解决中断恢复的问题，即假如有两个写寄存器的操作，指令1，指令2，可能乱序执行时指令2的结果已经将写回了寄存器，但是指令1还未执行，此时发生中断后，从指令1重新开始执行，就会重新进行两次写入，将会发生错误。只要保证后面指令修改机器状态时, 前阅读全文

posted @ 2024-08-13 06:28 吴建明wujianming 阅读(101) 评论(0) 推荐(0) 编辑

吴建明

公告