上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 283 下一页
摘要: 通过模型划分进行分布式训练 https://siboehm.com/articles/22/pipeline-parallel-training 流水线并行性使得训练不适合单个GPU内存的大型模型成为可能。示例:Hugginface的BLOOM模型是一个175B参数的Transformer模型。将权 阅读全文
posted @ 2024-08-01 05:10 吴建明wujianming 阅读(47) 评论(0) 推荐(0) 编辑
摘要: CPU上的快速多维矩阵乘法(草稿) Numpy可以在大约8毫秒内将4核Intel CPU上的两个1024x1024矩阵相乘。考虑到这归结为18 FLOPS/核心/周期,一个周期需要三分之一纳秒,这是非常快的。Numpy使用高度优化的BLAS实现来实现这一点。BLAS是Basic Linear Alg 阅读全文
posted @ 2024-07-31 19:15 吴建明wujianming 阅读(91) 评论(1) 推荐(0) 编辑
摘要: NPU 芯片技术杂谈 对于AI芯片并无明确统一的定义,广义上所有面向人工智能(Artificial Intelligence,AI),包括Training(训练)和Inference(推理)应用的芯片都可以被称为AI芯片。 参考文献链接 https://www.zhihu.com/question/ 阅读全文
posted @ 2024-07-30 08:01 吴建明wujianming 阅读(73) 评论(0) 推荐(0) 编辑
摘要: GPU的体系结构几个演进 从体系结构的视角看, GPU的诞生一开始是为了解决访存的问题, 1994年的时候整个图形渲染流水线基本上已经固定成为开放的OpenGL标准。 伴随着GeForce 6的发布,Vertex Shader和Pixel Shader都支持了完整分支、循环、预测等功能实现,最终一个 阅读全文
posted @ 2024-07-29 07:48 吴建明wujianming 阅读(44) 评论(0) 推荐(0) 编辑
摘要: NaplesPU或NPU技术开发文档合成全部(修改版) http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/Naples 阅读全文
posted @ 2024-07-28 06:36 吴建明wujianming 阅读(46) 评论(0) 推荐(0) 编辑
摘要: Naplespu微体系结构内多个插件融合分析(草稿) http://www.naplespu.com/doc/index.php?title=Detailed_studies 介绍 打算展示替换链是如何相对于L2缓存发生的,观察目录控制器是如何演变以管理此类情况的发生的。主要目的是测试发生L2替换的 阅读全文
posted @ 2024-07-27 07:07 吴建明wujianming 阅读(24) 评论(0) 推荐(0) 编辑
摘要: NaplesPU或NPU技术开发文档(草稿) http://www.naplespu.com/doc/index.php?title=Main_Page http://www.naplespu.com/ https://github.com/AlessandroCilardo/NaplesPU ht 阅读全文
posted @ 2024-07-26 05:56 吴建明wujianming 阅读(111) 评论(0) 推荐(0) 编辑
摘要: FPGA 算力芯片杂谈(续) 滤波器缓存 可以使用双缓冲区,其中一个缓冲区存储当前卷积的权重,而另一个缓冲区用于预取下一个卷积的权重,以提高并发性。 低精度 作为AI硬件设计的普遍趋势,供应商正在探索在推理中使用具有相同范围覆盖的低精度数据,例如下面的FP11将具有FP16相同的范围,但由于尾数较小 阅读全文
posted @ 2024-07-25 05:44 吴建明wujianming 阅读(26) 评论(0) 推荐(0) 编辑
摘要: FPGA 算力芯片杂谈 PGA是基于可配置逻辑块(CLB)矩阵通过可编程互连连接的半导体器件。CLB是高度可配置的,可以创建不同的逻辑。通过可编程互连,我们可以为这些CLB创建复杂的数据路径。 可以配置LUT来模仿任何逻辑函数。 在CLB内部,LUT通常后面跟着带有输出寄存器的加法器(输出存储其先前 阅读全文
posted @ 2024-07-24 07:00 吴建明wujianming 阅读(76) 评论(0) 推荐(0) 编辑
摘要: GPU内核驱动杂谈 不同CPU相比,GPU中包含了大量的并行计算单元,适合处理像素,矩阵,坐标等大量同类型的数据,因此,很多LINUX上的应用程序为了能够利用GPU的加速功能,都试图和GPU直接打交道,因此,系统中可能有多个组件或者程序同时使用GPU,比如桌面系统中OpenGL的实现MESA。这样会 阅读全文
posted @ 2024-07-23 06:51 吴建明wujianming 阅读(265) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 283 下一页