K00 HPC_高性能计算 - 随笔分类 - zyl910

[C] zintrin.h: 智能引入intrinsic函数 V1.02版。支持VC2012，增加INTRIN_ALIGN、INTRIN_COMPILER_NAME宏

摘要：作者：zyl910。一、更新说明1.1 支持VC2012 VC2012增加了很多Intrinsics函数，详见——http://www.cnblogs.com/zyl910/archive/2012/11/06/intrin_vc2012.html检查了一下VC2012新增的Intrinsics函数集，发现它支持ARM指令和Haswell新指令根据上述信息改进zintrin，检测到是VC2012时定义相关的宏—— #if _MSC_VER >=1700 // VC2012 #define INTRIN_AVX2 1 // immint... 阅读全文

posted @ 2012-11-07 22:18 zyl910 阅读(2387) 评论(1) 推荐(2)

检查了一下VC2012新增的Intrinsics函数集，发现它支持ARM指令和Haswell新指令

摘要：作者：zyl910 之前我整理了一份VC6至VC2010中Intrinsics函数集对应表。现在VS2012发布了，它有没有增加Intrinsics函数集呢？于是我对此进行检查。若是64位win8系统中默认安装的VS2012，Intrinsics头文件位于“C:\Program Files (x86)\Microsoft Visual Studio 11.0\VC\include”目录。首先发现多了两个Intrinsics头文件——armintr.h：ARM的常用指令集。arm_neon.h：ARM的neon指令集。看了一下intrin.h，发现以前大段的ARM Intrinsi... 阅读全文

posted @ 2012-11-06 22:49 zyl910 阅读(4905) 评论(0) 推荐(1)

[C] 跨平台使用Intrinsic函数范例3——使用MMX、SSE2指令集处理 32位整数数组求和

摘要：作者：zyl910。本文面对对SSE等SIMD指令集有一定基础的读者，以32位整数数组求和为例演示了如何跨平台使用MMX、SSE2指令集。支持vc、gcc编译器，在Windows、Linux、Mac这三大平台上成功运行。一、关键讲解前文（http://www.cnblogs.com/zyl910/archive/2012/10/22/simdsumfloat.html）演示了如何使用SSE、AVX指令集处理单精度浮点数组求和。现在对其进行改造，使用MMX、SSE2指令集处理 32位整数数组求和。因程序基本上差不多，文本就不详细讲解了，只说关键变化。1.1 指令集简介先来看看支... 阅读全文

posted @ 2012-10-26 21:24 zyl910 阅读(4308) 评论(0) 推荐(0)

[C] 跨平台使用Intrinsic函数范例2——使用SSE2、AVX指令集处理双精度浮点数组求和

摘要：作者：zyl910。本文面对对SSE等SIMD指令集有一定基础的读者，以双精度浮点数组求和为例演示了如何跨平台使用SSE2、AVX指令集。支持vc、gcc编译器，在Windows、Linux、Mac这三大平台上成功运行。一、关键讲解前文（http://www.cnblogs.com/zyl910/archive/2012/10/22/simdsumfloat.html）演示了如何使用SSE、AVX指令集处理单精度浮点数组求和。现在对其进行改造，使用SSE2、AVX指令集处理双精度浮点数组求和。因程序基本上差不多，文本就不详细讲解了，只说关键变化。1.1 指令集简介先来看看支... 阅读全文

posted @ 2012-10-26 17:49 zyl910 阅读(4003) 评论(0) 推荐(0)

[C] 跨平台使用Intrinsic函数范例1——使用SSE、AVX指令集处理单精度浮点数组求和（支持vc、gcc，兼容Windows、Linux、Mac）

摘要：作者：zyl910。本文面对对SSE等SIMD指令集有一定基础的读者，以单精度浮点数组求和为例演示了如何跨平台使用SSE、AVX指令集。因使用了stdint、zintrin、ccpuid这三个模块，可以完全避免手工编写汇编代码，具有很高可移植性。支持vc、gcc编译器，在Windows、Linux、Mac这三大平台上成功运行。一、问题背景最初，我们只能使用汇编语言来编写SIMD代码。不仅写起来很麻烦，而且易读性、可维护性、移植性都较差。不久，VC、GCC等编译器相继支持了Intrinsic函数，使我们可以摆脱汇编，利用C语言来调用SIMD指令集，大大提高了易读性和可维护。而且移植性... 阅读全文

posted @ 2012-10-22 22:12 zyl910 阅读(22564) 评论(5) 推荐(5)

[C/C++] ccpuid：CPUID信息模块 V1.03版，改进mmx/sse指令可用性检查（使用signal、setjmp，支持纯C）、修正AVX检查Bug

摘要：作者：zyl910。之前的ccpuid V1.02的mmx/sse指令可用性检查存在缺陷。现在的V1.03版改进了mmx/sse指令可用性检查，使用signal、setjmp，能够支持纯C程序。修正了AVX检查Bug。增加多文件链接ccpuid的测试例程。一、更新说明1.1 改进mmx/sse指令可用性检查1.1.1 问题背景以前是使用结构化异常处理来确认当前环境是否能运行mmx/sse指令的。该方法存在两个问题。首先，仅有C++支持结构化异常处理，而纯C是不支持的。所以在V1.02版中，是根据__cplusplus宏来做条件编译的。造成仅有C++版支持指令可用性检查，而纯C版没有... 阅读全文

posted @ 2012-10-13 00:01 zyl910 阅读(5047) 评论(1) 推荐(2)

[C] zintrin.h: 智能引入intrinsic函数 V1.01版。改进对Mac OS X的支持，增加INTRIN_WORDSIZE宏

摘要：新版本——http://www.cnblogs.com/zyl910/archive/2012/11/07/zintrin_v102.html[C] zintrin.h: 智能引入intrinsic函数 V1.02版。支持VC2012，增加INTRIN_ALIGN、INTRIN_COMPILER_NAME宏作者：zyl910。之前的zintrin V1.00版对Mac OS X平台支持性不佳。现在的V1.01版改进对Mac OS X的支持，还做了这些改进——增加INTRIN_WORDSIZE宏等。一、更新说明1.1 改进对Mac OS X的支持前几天在使用Xcode时，发现mac下也.. 阅读全文

posted @ 2012-10-01 23:18 zyl910 阅读(3842) 评论(0) 推荐(0)

[C/C++] ccpuid：CPUID信息模块 V1.02版，支持Mac OS X，支持纯C，增加CPUF常数

摘要：新版本——http://www.cnblogs.com/zyl910/archive/2012/10/13/ccpuid_v103.html作者：zyl910。之前的ccpuid V1.01版只支持Windows和Linux平台。现在的V1.02版增加对Mac OS X平台的支持，还做了这些改进——支持纯C、增加CPUF常数、x86平台判断。一、更新说明1.1 支持Mac OS X平台之前我发现了Mac OS X中的“/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/li.. 阅读全文

posted @ 2012-09-29 23:34 zyl910 阅读(9533) 评论(0) 推荐(0)

发现Mac OS X的llvm-gcc也是支持intrin函数的

摘要：作者：zyl910 前段时间我尝试用Finder的搜索功能查找intrin头文件，可惜没有找到，于是误以为Mac OS X的llvm-gcc不支持intrin函数。今天在使用Xcode时，发现它是支持的，intrin头文件位于“/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/lib/clang/4.0/include”目录中。搜索不到文件，可能是因为“/Applications/Xcode.app”并不是普通的目录。在Finder中定位到“应用程序”目录，如果双击... 阅读全文

posted @ 2012-09-27 18:28 zyl910 阅读(1292) 评论(0) 推荐(0)

[C] zintrin.h : 智能引入intrinsic函数。支持VC、GCC，兼容Windows、Linux、Mac OS X

摘要：新版本——http://www.cnblogs.com/zyl910/archive/2012/10/01/zintrin_v101.html作者：zyl910。现在很多编译器支持intrinsic函数，这给编写SSE等SIMD代码带来了方便。但是各个编译器略有差异，于是我编写了zintrin.h，智能引入intrinsic函数。一、各种编译器的区别1.1 Visual C++（Windows）最早支持intrinsic函数的VC编译器是VC 6.0。它在装上Visual Studio 6.0 Service Pack 5、Visual C++ 6.0 Processor Pack这两.. 阅读全文

posted @ 2012-09-23 23:09 zyl910 阅读(3840) 评论(0) 推荐(1)

GCC中的Intrinsics头文件与SIMD指令集、宏、参数的对应表

摘要：作者：zyl910。列名解释——GCC470：GCC 4.7.0 (Fedora 17)。/usr/lib/gcc/i686-redhat-linux/4.7.0/include/。GCC462：GCC 4.6.2 (MinGW)。\lib\gcc\mingw32\4.6.2\include。宏：判断该指令集是否启用的宏。参数：启用该指令集的命令行参数。描述：指令集描述。 GCC470GCC462宏参数描述abmintrin.h__ABM__-mabmABM: Advanced Bit Manipulation. 改为lzcntintrin.h.ammintrin.hammintrin.h.. 阅读全文

posted @ 2012-08-27 22:45 zyl910 阅读(11765) 评论(1) 推荐(1)

Instructions函数对照表：02 xmmintrin.h与SSE指令集

摘要：作者：zyl910更多详情见——http://www.cnblogs.com/zyl910/archive/2012/04/26/md00.htmlSIMD函数整理：00 索引贴R：寄存器。M：64位MM寄存器；X：128位XMM寄存器；Y：256位YMM寄存器。Name：函数名。Name2：另一种函数名。功能：功能描述。Asm：汇编指令。PCode：伪代码。RNameName2功能AsmPCodeX_MM_SHUFFLE混洗的掩码.4#http://msdn.microsoft.com/en-us/library/4d3eabky(vs.71).aspxX_MM_TRANSPOSE4_PS矩阅读全文

posted @ 2012-07-31 18:32 zyl910 阅读(8929) 评论(1) 推荐(1)

Instructions函数对照表：01 mmintrin.h与MMX指令集

摘要：作者：zyl910更多详情见——http://www.cnblogs.com/zyl910/archive/2012/04/26/md00.htmlSIMD函数整理：00 索引贴Name：函数名。Name2：另一种函数名。功能：功能描述。Asm：汇编指令。PCode：伪代码。 NameName2功能AsmPCode_m_empty_mm_emptyMMX状态置空EMMS_m_from_int_mm_cvtsi32_si64加载32位MOVDr=ZX(i)_m_to_int_mm_cvtsi64_si32返回低32位MOVDr=(uD)m_m_packsswb_mm_packs_pi16... 阅读全文

posted @ 2012-07-19 22:48 zyl910 阅读(4452) 评论(0) 推荐(0)

[VC] 检测AVX系列指令集的支持级别（AVX、AVX2、F16C、FMA、FMA4、XOP）

摘要：从2011年的Sandy Bridge微架构处理器开始，现在支持AVX系列指令集的处理器越来越多了。本文探讨如何用VC编写检测AVX系列指令集的程序，并利用了先前的CPUIDFIELD方案。一、AVX系列指令集简介 SSE5 指令：SSE5 是一个纸面上的指令集，并没有最终实现，AMD 在 2007 年 8 月公布 SSE5 指令集规范，在 2009 年 5 月 AMD 推出了 XOP，FMA4 以及 CVT16 来取代 SSE5 指令。 AVX 指令：2008 年 3 月 Intel 发布了 AVX（Advanced Vector Extensions）指令集规范，首次在 Sandy B.. 阅读全文

posted @ 2012-07-04 16:01 zyl910 阅读(12428) 评论(0) 推荐(0)

[VC兼容32位和64位] 检查MMX和SSE系列指令集的支持级别

摘要：以前我写了一篇《[VC6] 检查MMX和SSE系列指令集的支持级别（最高SSE4.2）》（http://www.cnblogs.com/zyl910/archive/2012/03/01/checksimd.html）。现在发现该方法存在两点缺陷——1.不支持64位，因为VC的64位程序不支持内嵌汇编；2.没有区分硬件支持与操作系统支持。怎么解决这两点缺陷呢？对于第1点，可以利用Intrinsics函数来兼容32位和64位。为了更方便的使用CPUID指令，可以利用《如何在各个版本的VC及64位下使用CPUID指令》（http://www.cnblogs.com/zyl910/arc... 阅读全文

posted @ 2012-05-25 22:22 zyl910 阅读(5008) 评论(0) 推荐(1)

C++AMP的tiled_index线程编号属性笔记

摘要：tiled_index类中有4个属性与线程编号有关——tiled_index.global：线程的全局编号。相当于DirectCompute中的SV_DispatchThreadID。tiled_index.local：线程的局部编号。相当于DirectCompute中的SV_GroupThreadID。tiled_index.tile：线程块的编号。相当于DirectCompute中的SV_GroupID。tiled_index.tile_origin：线程块中首个线程的全局编号。（tile_origin=global-local）。参考文献——http://msdn.microsoft.c 阅读全文

posted @ 2012-05-09 15:24 zyl910 阅读(838) 评论(0) 推荐(0)

ID3D11DeviceContext::Dispatch与numthread笔记

摘要：假定——[numthreads(TX, TY, TZ)] // 线程组尺寸。既线程组内有多少个线程。Dispatch(GX, GY, GZ); // 线程组的数量。既有多少个线程组。那么——SV_GroupThreadID={iTX, iTY, iTZ} // 【线程组内的】线程3D编号SV_GroupID={iGX, iGY, iGZ} // 线程组的3D编号SV_DispatchThreadID={iGX*TX+iTX, iGY*TY+iTY, iGZ*TZ+iTZ} // 将线程组展开后，每个线程的全局3D编号。SV_GroupIndex=iTX + iTY*TX + iTZ*TX*TY 阅读全文

posted @ 2012-05-07 16:50 zyl910 阅读(913) 评论(0) 推荐(0)

SIMD函数整理：00 索引贴（2012-07-31更新）

摘要：作者：zyl910 关于SIMD（MMX、SSE、AVX）编程的资料一直很零散，于是我试图进行收集整理，便于随时翻阅学习。而且很多代码是直接用汇编写的，易读性差、难以重用，于是我决定将其统一改写为Intrinsics函数版。一、Instructions函数对照表在使用Instructions函数时，很多时候会发现MSDN说的不详细，这时只有去翻阅Intel、AMD文档了。但Intel、AMD文档都是按照汇编指令名排序的，查起来不太方便。而且SIMD指令大多很复杂，文字描述难以详细的解释其功能，唯有伪代码才能精确的解释其功能。但Intel、AMD文档上的伪代码大多很长，不适合随时翻阅。... 阅读全文

posted @ 2012-04-26 21:53 zyl910 阅读(6951) 评论(0) 推荐(3)

zyl910

公告

随笔分类 - K00 HPC_高性能计算