摘要:
图形学中最常用的底层类为矢量类(Vector)和矩阵类(Matrix).已经存在很多实现的版本,甚至包括用汇编语言写的内联函数库版本。但这些是否是最优化的类呢?下面介绍的矩阵类版本利用了SIMD指令集优化技术实现了数据对齐与并行处理,极大地提高了矩阵操作速度,甚至比微软d3dmatrix.h中的类速度快上两倍,比用内联汇编技术编写的类快上一倍多。 阅读全文
sundeepblueComputer Graphics, CAGD, Demoscene, intro [crack each line of code, cram each bit of byte, create each idea of mind] |
摘要:
图形学中最常用的底层类为矢量类(Vector)和矩阵类(Matrix).已经存在很多实现的版本,甚至包括用汇编语言写的内联函数库版本。但这些是否是最优化的类呢?下面介绍的矩阵类版本利用了SIMD指令集优化技术实现了数据对齐与并行处理,极大地提高了矩阵操作速度,甚至比微软d3dmatrix.h中的类速度快上两倍,比用内联汇编技术编写的类快上一倍多。 阅读全文
摘要:
合理使用缓存,注意数据对齐,可以极大优化代码,发挥cache高速运算的优势。
注意,真正的16位浮点数是不存在的!但下文介绍一种方法实现了16位浮点数,并与32位标准浮点数精度进行对比,发现16位浮点数既具有16位整形计算速度的优势,又有32位标准浮点数的精度优势,在z缓冲加、减、比较运算中效果非常理想。作者提到的这种处理方法非常值得我们借鉴与学习。文中没有大段代码,只举了两个典型例子,一个是z缓冲计算,另一个是纹理映射中纹理加载。
摘自gamedev.
Leveraging the Power of Cache Memory 阅读全文
|