吴建明wujianming

2024年8月4日

摘要：矩阵乘法内核优化CUDA杂谈矩阵乘法内核优化CUDA杂谈 How to Optimize a CUDA Matmul Kernel for cuBLAS-like Performance: a Worklog https://siboehm.com/articles/22/CUDA-MMM 在这篇阅读全文

posted @ 2024-08-04 06:17 吴建明wujianming 阅读(65) 评论(0) 推荐(0) 编辑

2024年8月3日

GPGPU技术杂谈

摘要： GPGPU技术杂谈 1.GPGPU行业概述 GPU最初的设计目标是为了提升计算机对图形、图像、视频等数据的处理性能，解决CPU在图形图像领域处理效率低的难题。随着GPU在并行计算方面性能优势的逐步显现以及并行计算应用范围的逐步拓展，GPU逐渐分化成两条分支，一条是传统意义的GPU，延续专门用于图形图阅读全文

posted @ 2024-08-03 03:04 吴建明wujianming 阅读(126) 评论(0) 推荐(0) 编辑

2024年8月1日

通过模型划分进行分布式训练

摘要：通过模型划分进行分布式训练 https://siboehm.com/articles/22/pipeline-parallel-training 流水线并行性使得训练不适合单个GPU内存的大型模型成为可能。示例：Hugginface的BLOOM模型是一个175B参数的Transformer模型。将权阅读全文

posted @ 2024-08-01 05:10 吴建明wujianming 阅读(20) 评论(0) 推荐(0) 编辑

2024年7月31日

CPU上的快速多维矩阵乘法（草稿）

摘要： CPU上的快速多维矩阵乘法（草稿） Numpy可以在大约8毫秒内将4核Intel CPU上的两个1024x1024矩阵相乘。考虑到这归结为18 FLOPS/核心/周期，一个周期需要三分之一纳秒，这是非常快的。Numpy使用高度优化的BLAS实现来实现这一点。BLAS是Basic Linear Alg 阅读全文

posted @ 2024-07-31 19:15 吴建明wujianming 阅读(56) 评论(1) 推荐(0) 编辑

2024年7月30日

NPU 芯片技术杂谈

摘要： NPU 芯片技术杂谈对于AI芯片并无明确统一的定义，广义上所有面向人工智能（Artificial Intelligence，AI），包括Training(训练)和Inference(推理)应用的芯片都可以被称为AI芯片。参考文献链接 https://www.zhihu.com/question/ 阅读全文

posted @ 2024-07-30 08:01 吴建明wujianming 阅读(54) 评论(0) 推荐(0) 编辑

2024年7月29日

GPU的体系结构几个演进

摘要： GPU的体系结构几个演进从体系结构的视角看, GPU的诞生一开始是为了解决访存的问题, 1994年的时候整个图形渲染流水线基本上已经固定成为开放的OpenGL标准。伴随着GeForce 6的发布，Vertex Shader和Pixel Shader都支持了完整分支、循环、预测等功能实现，最终一个阅读全文

posted @ 2024-07-29 07:48 吴建明wujianming 阅读(27) 评论(0) 推荐(0) 编辑

2024年7月28日

NaplesPU或NPU技术开发文档合成全部（修改版）

摘要： NaplesPU或NPU技术开发文档合成全部（修改版） http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/Naples 阅读全文

posted @ 2024-07-28 06:36 吴建明wujianming 阅读(26) 评论(0) 推荐(0) 编辑

2024年7月27日

Naplespu微体系结构内多个插件融合分析（草稿）

摘要： Naplespu微体系结构内多个插件融合分析（草稿） http://www.naplespu.com/doc/index.php?title=Detailed_studies 介绍打算展示替换链是如何相对于L2缓存发生的，观察目录控制器是如何演变以管理此类情况的发生的。主要目的是测试发生L2替换的阅读全文

posted @ 2024-07-27 07:07 吴建明wujianming 阅读(16) 评论(0) 推荐(0) 编辑

2024年7月26日

NaplesPU或NPU技术开发文档（草稿）

摘要： NaplesPU或NPU技术开发文档（草稿） http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/NaplesPU ht 阅读全文

posted @ 2024-07-26 05:56 吴建明wujianming 阅读(59) 评论(0) 推荐(0) 编辑

2024年7月25日

FPGA 算力芯片杂谈（续）

摘要： FPGA 算力芯片杂谈（续）滤波器缓存可以使用双缓冲区，其中一个缓冲区存储当前卷积的权重，而另一个缓冲区用于预取下一个卷积的权重，以提高并发性。低精度作为AI硬件设计的普遍趋势，供应商正在探索在推理中使用具有相同范围覆盖的低精度数据，例如下面的FP11将具有FP16相同的范围，但由于尾数较小阅读全文

posted @ 2024-07-25 05:44 吴建明wujianming 阅读(16) 评论(0) 推荐(0) 编辑

吴建明

公告