摘要: CPU上的快速多维矩阵乘法(草稿) Numpy可以在大约8毫秒内将4核Intel CPU上的两个1024x1024矩阵相乘。考虑到这归结为18 FLOPS/核心/周期,一个周期需要三分之一纳秒,这是非常快的。Numpy使用高度优化的BLAS实现来实现这一点。BLAS是Basic Linear Alg 阅读全文
posted @ 2024-07-31 19:15 吴建明wujianming 阅读(56) 评论(1) 推荐(0) 编辑