摘要: 计算机体系结构技术杂谈(下) 2.8 加速Transformer:稀疏注意力加速器分析 1. 稀疏注意力加速器简介 近年来, Transformer模型在深度学习的各个领域,包括自然语言处理、图像分类、图像及语音生成等方面,都取得了远超于传统神经网络模型的表现。最近的ChatGPT和各类基于Tran 阅读全文
posted @ 2024-08-13 06:40 吴建明wujianming 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 计算机体系结构技术杂谈(中) 例2:进阶算法 基础算法无法解决中断恢复的问题,即假如有两个写寄存器的操作,指令1,指令2,可能乱序执行时指令2的结果已经将写回了寄存器,但是指令1还未执行,此时发生中断后,从指令1重新开始执行,就会重新进行两次写入,将会发生错误。 只要保证后面指令修改机器状态时, 前 阅读全文
posted @ 2024-08-13 06:28 吴建明wujianming 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 算子计算与调度杂谈 9.4.1 GPU内核驱动分析概述 不同CPU相比,GPU中包含了大量的并行计算单元,适合处理像素,矩阵,坐标等大量同类型的数据,因此,很多LINUX上的应用程序为了能够利用GPU的加速功能,都试图和GPU直接打交道,因此,系统中可能有多个组件或者程序同时使用GPU,比如桌面系统 阅读全文
posted @ 2024-08-13 06:06 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑