上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 272 下一页
摘要: 矩阵乘法内核优化CUDA杂谈 矩阵乘法内核优化CUDA杂谈 How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog https://siboehm.com/articles/22/CUDA-MMM 在这篇 阅读全文
posted @ 2024-08-04 06:17 吴建明wujianming 阅读(65) 评论(0) 推荐(0) 编辑
摘要: GPGPU技术杂谈 1.GPGPU行业概述 GPU最初的设计目标是为了提升计算机对图形、图像、视频等数据的处理性能,解决CPU在图形图像领域处理效率低的难题。随着GPU在并行计算方面性能优势的逐步显现以及并行计算应用范围的逐步拓展,GPU逐渐分化成两条分支,一条是传统意义的GPU,延续专门用于图形图 阅读全文
posted @ 2024-08-03 03:04 吴建明wujianming 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 通过模型划分进行分布式训练 https://siboehm.com/articles/22/pipeline-parallel-training 流水线并行性使得训练不适合单个GPU内存的大型模型成为可能。示例:Hugginface的BLOOM模型是一个175B参数的Transformer模型。将权 阅读全文
posted @ 2024-08-01 05:10 吴建明wujianming 阅读(20) 评论(0) 推荐(0) 编辑
摘要: CPU上的快速多维矩阵乘法(草稿) Numpy可以在大约8毫秒内将4核Intel CPU上的两个1024x1024矩阵相乘。考虑到这归结为18 FLOPS/核心/周期,一个周期需要三分之一纳秒,这是非常快的。Numpy使用高度优化的BLAS实现来实现这一点。BLAS是Basic Linear Alg 阅读全文
posted @ 2024-07-31 19:15 吴建明wujianming 阅读(56) 评论(1) 推荐(0) 编辑
摘要: NPU 芯片技术杂谈 对于AI芯片并无明确统一的定义,广义上所有面向人工智能(Artificial Intelligence,AI),包括Training(训练)和Inference(推理)应用的芯片都可以被称为AI芯片。 参考文献链接 https://www.zhihu.com/question/ 阅读全文
posted @ 2024-07-30 08:01 吴建明wujianming 阅读(54) 评论(0) 推荐(0) 编辑
摘要: GPU的体系结构几个演进 从体系结构的视角看, GPU的诞生一开始是为了解决访存的问题, 1994年的时候整个图形渲染流水线基本上已经固定成为开放的OpenGL标准。 伴随着GeForce 6的发布,Vertex Shader和Pixel Shader都支持了完整分支、循环、预测等功能实现,最终一个 阅读全文
posted @ 2024-07-29 07:48 吴建明wujianming 阅读(27) 评论(0) 推荐(0) 编辑
摘要: NaplesPU或NPU技术开发文档合成全部(修改版) http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/Naples 阅读全文
posted @ 2024-07-28 06:36 吴建明wujianming 阅读(26) 评论(0) 推荐(0) 编辑
摘要: Naplespu微体系结构内多个插件融合分析(草稿) http://www.naplespu.com/doc/index.php?title=Detailed_studies 介绍 打算展示替换链是如何相对于L2缓存发生的,观察目录控制器是如何演变以管理此类情况的发生的。主要目的是测试发生L2替换的 阅读全文
posted @ 2024-07-27 07:07 吴建明wujianming 阅读(16) 评论(0) 推荐(0) 编辑
摘要: NaplesPU或NPU技术开发文档(草稿) http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/NaplesPU ht 阅读全文
posted @ 2024-07-26 05:56 吴建明wujianming 阅读(59) 评论(0) 推荐(0) 编辑
摘要: FPGA 算力芯片杂谈(续) 滤波器缓存 可以使用双缓冲区,其中一个缓冲区存储当前卷积的权重,而另一个缓冲区用于预取下一个卷积的权重,以提高并发性。 低精度 作为AI硬件设计的普遍趋势,供应商正在探索在推理中使用具有相同范围覆盖的低精度数据,例如下面的FP11将具有FP16相同的范围,但由于尾数较小 阅读全文
posted @ 2024-07-25 05:44 吴建明wujianming 阅读(16) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 272 下一页