上一页 1 2 3 4 5 6 7 ··· 272 下一页
摘要: CDFormer:当退化预测包含盲图像超分辨率的扩散模型时 现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来忽视了基本的内容细节。提出了一种新的BSR方法,即内容感知退化驱动变换器(CDFormer),用于捕获退化和内容表示。然而,低分辨率图像无法提供足够的内容细节,因此引入了一 阅读全文
posted @ 2024-10-30 10:42 吴建明wujianming 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 6.11 SAM-6D:分段任意模型满足零样本6D对象姿态估计 6.11.1 SAM-6D:分段任意模型满足零样本6D对象姿态估计概述 零样本6D物体姿态估计涉及在杂乱场景中检测具有6D姿态的新物体,这对模型的可推广性提出了重大挑战。幸运的是,最近的Segment Anything Model(SA 阅读全文
posted @ 2024-10-29 06:39 吴建明wujianming 阅读(16) 评论(0) 推荐(0) 编辑
摘要: PromptKD:视觉语言模型的无监督提示提取 快速学习已成为增强视觉语言模型(VLM)的一种有价值的技术,例如用于特定领域下游任务的CLIP。现有的工作主要集中在设计各种学习形式的提示,忽视了提示作为从大型教师模型中学习的有效蒸馏器的潜力。介绍了一种无监督的领域提示蒸馏框架,旨在通过使用未标记的领 阅读全文
posted @ 2024-10-28 08:45 吴建明wujianming 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 《LLVM编译器原理与实践》,机械工业出版社出版,已于2024年10月出版。 在京东、淘宝天猫、当当等网上都有出售。内容全面详实,实战实践示例多。全面阐述了LLVM原理、尤其突出LLVM实践实战技术,是目前网上全面解析LLVM的最新书籍,内容紧跟LLVM新时代和新潮流。本书内容经过机械工业出版社资深 阅读全文
posted @ 2024-10-27 10:50 吴建明wujianming 阅读(234) 评论(3) 推荐(0) 编辑
摘要: 简单谈谈Google TPUv6 根据Google TPU第六代的数据做了一些性能数据的对比,需要注意的是TPUv6当前应该是一个用于训推一体的单Die的版本,用于训练的V6p双Die版本应该会后期再发布. 需要注意的是在国内外都开始卷大模型推理价格的时候, TPU这样的东西对于提高ROI非常有帮助 阅读全文
posted @ 2024-10-26 18:44 吴建明wujianming 阅读(43) 评论(0) 推荐(0) 编辑
摘要: GNU编译器(GCC)原理简介 GNU编译器(GCC, GNU Compiler Collection)是GNU工具链的关键组件,与GNU、Linux相关项目的标准编译器。它设计之初仅用来处理C语言的(也被称为GNU C编译器),紧接着扩展到C++、Objective-C/C++、Fortran、J 阅读全文
posted @ 2024-10-26 18:22 吴建明wujianming 阅读(69) 评论(0) 推荐(0) 编辑
摘要: CPU 计算时延 CPU(中央处理器)是计算机的核心组件,其性能对计算机系统的整体性能有着重要影响。CPU 计算时延是指从指令发出到完成整个指令操作所需的时间。理解 CPU 的计算时延对于优化计算性能和设计高效的计算系统至关重要。 1. CPU 计算时延的组成 CPU 计算时延主要由以下几个部分组成 阅读全文
posted @ 2024-10-26 18:08 吴建明wujianming 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 张量矩阵乘法分块乘法概述 介绍一下矩阵计算相关的内容, 从最基本的算法,到Cutlass这些线性代数模版库, 特别是Layout代数相关的内容,再逐渐细化到一些硬件实现访存优化和一些算子融合。 6.3.1 GEMM概述 1. GEMM定义 对于一个矩阵乘法, 定义如下: (6-1) 一个矩阵乘法定义 阅读全文
posted @ 2024-10-07 11:53 吴建明wujianming 阅读(53) 评论(0) 推荐(0) 编辑
摘要: 矩阵分块乘法 通常可以把一个矩阵分成多个块, 例如, (6-4) 可以将其划分为 4个块: (6-5) (6-6) 分块后的矩阵记为: (6-7) 分块矩阵乘法如下所示: (6-7) 划分不一定需要完全等间隔, 只需要满足子矩阵乘法规则即可, 如图6-27所示。 图6-27 子矩阵划分不一定需要完全 阅读全文
posted @ 2024-10-07 11:49 吴建明wujianming 阅读(77) 评论(1) 推荐(0) 编辑
摘要: 从硬件的视角看GEMM 1. 分块乘法的内存层次架构 分块矩阵乘法,如图6-28所示, 通过将矩阵分块拆分,能够在处理器的Cache和寄存器内存放进行快速计算,计算完成后写回主存。 图6-28 分块矩阵乘法 首先,所有的数据都在主内存中,如图6-29所示。 图6-29 所有的数据都在主内存中 然后, 阅读全文
posted @ 2024-10-07 11:42 吴建明wujianming 阅读(61) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 ··· 272 下一页