--- Best_重要的 - 随笔分类(第2页) - zyl910

SIMD函数整理：00 索引贴（2012-07-31更新）

摘要：作者：zyl910 关于SIMD（MMX、SSE、AVX）编程的资料一直很零散，于是我试图进行收集整理，便于随时翻阅学习。而且很多代码是直接用汇编写的，易读性差、难以重用，于是我决定将其统一改写为Intrinsics函数版。一、Instructions函数对照表在使用Instructions函数时，很多时候会发现MSDN说的不详细，这时只有去翻阅Intel、AMD文档了。但Intel、AMD文档都是按照汇编指令名排序的，查起来不太方便。而且SIMD指令大多很复杂，文字描述难以详细的解释其功能，唯有伪代码才能精确的解释其功能。但Intel、AMD文档上的伪代码大多很长，不适合随时翻阅。... 阅读全文

posted @ 2012-04-26 21:53 zyl910 阅读(6843) 评论(0) 推荐(2) 编辑

AVX指令集中的32种浮点比较关系详解（NaN、无序、有序等）

摘要：在传统印象中，数字的比较关系只有6种。但在AVX指令集中，Intel一下给出了32种浮点比较谓词，详见下图——（Intel手册：Table 3-9. Comparison Predicate for VCMPPD and VCMPPS Instructions）为什么会有这么多种比较谓词呢？我为此困惑困惑了很久。直到最近翻阅了不少资料后，才终于将它们弄懂了。一、浮点数据类型 Intel使用的是IEEE 754规范的浮点数据类型。对于浮点数据类型来说，除了可以存储数字、无穷之外，还可以存储 NaN（not a number。非数）。 NaN（非数）分为两大类——1.QNaN：qu... 阅读全文

posted @ 2012-04-19 15:50 zyl910 阅读(5092) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（9）：测试成绩总结

摘要：一、测试结果汇总将前面的测试结果进行汇总，整理为表格（单位是毫秒，数值越小越好）—— 测试f0_iff1_minf2_negf3_sarf4_mmxf5_sseVC6 on 32bit2016206371967237.525.7VC6 on 64bit2028207571868737.125.3VC2010(32) on 32bit17932112512437VC2010(32) on 64bit17162106514437VC2010(64) on 64bit16231997421328C#2010(any) on 32bit192221472471559C#2010(any) on... 阅读全文

posted @ 2012-04-13 17:20 zyl910 阅读(1814) 评论(2) 推荐(0) 编辑

深入探讨用位掩码代替分支（8）：SSE指令集速度测试

摘要：在上一篇测试了MMX指令集，这次我们来测试SSE指令集。说的更精确一点，是测试SSE2指令集。本篇致力于解决以下问题——1.SSE/SSE2指令集是什么？2.如何阅读Intel/AMD的手册？3.如何运用SSE指令集？如何将MMX代码升级为SSE代码。4.如何在VC++6.0这样的高级语言编译器中使用MMX指令集？一、简介 1999 年 Intel 推出了第 1 代的 SSE（Streaming SIMD Extensions）指令以回击 AMD 的 3DNow! 指令，使用在 Pentium III 处理器上。随后 AMD 在 2001 年 10 月发布的 Athlon XP ... 阅读全文

posted @ 2012-04-12 22:09 zyl910 阅读(4453) 评论(2) 推荐(0) 编辑

深入探讨用位掩码代替分支（7）：MMX指令集速度测试

摘要：前面我们测试了高级语言做饱和处理的性能。其实，对于这样的大批量数据处理，使用SIMD（Single Instruction Multiple Data，单指令多数据流）技术能极大的提高性能。MMX指令集是目前x86平台上覆盖最广的SIMD指令集，于是本文对它进行探讨。本文致力于解决以下问题——1.MMX指令集是什么？2.如何阅读Intel/AMD的手册？2.如何运用MMX指令集？3.如何在VC++6.0这样的高级语言编译器中使用MMX指令集？一、MMX指令集简介 MMX（Multi Media eXtension，多媒体扩展指令集）指令集是Intel公司于1996年推出的一项多媒体指... 阅读全文

posted @ 2012-04-09 22:25 zyl910 阅读(3335) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（6）：VB6速度测试

摘要：前面我们测试了C系列语言，验证了位掩码算法的确实性能不错。那么对于Basic系列语言，该算法的效率怎样呢？于是本文对此进行探讨。 VB.Net与C#一样，也是由.Net虚拟机执行的，没有多大的测试价值。所以我决定测试VB6。一、移植要点 VB6的功能与C系列语言差很多。很多地方需要换另一种方法去实现，甚至不能实现。要点有——1.VB6不支持控制台程序，只支持窗口程序。所以我们的测试程序得修改为窗口程序。2.VB6不支持指针，所以依靠数组。幸好现在的操作比较简单，用数组的性能损失不大。3.VB6没有带符号移位运算法，所以无法实现f3_sar函数。4.VB6和C#一样不支持宏，所以得手... 阅读全文

posted @ 2012-03-30 16:49 zyl910 阅读(3609) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（5）：C#2010速度测试

摘要：前面我们测试了C语言这样纯编译型语言。那么对于像C#这样由虚拟机执行的语言，“位掩码代替分支”法是否也有效果呢？于是本文对此进行探讨。一、移植要点 C#的语法与C语言很相像，多数代码可以直接用，但要注意以下几点。1.1 unsafe——不安全上下文 C#虽然支持指针，但必须在unsafe——不安全上下文中才能使用。要使用unsafe，必须先配置项目属性，允许不安全代码——1.项目->属性，打开项目的属性页。2.点击左侧“生成”，切换到“生成”页。3.点击上侧的“配置”组合框，选择“所有配置(C)”。4.勾选“常规”中的“允许不安全代码(F)”。5.点击工具栏上的“保存”按钮。 ... 阅读全文

posted @ 2012-03-29 17:08 zyl910 阅读(1416) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（4）：VC2010速度测试

摘要：前面我们用VC6测试了位掩码代替分支的速度。VC6是1998年发售的，离现在有14年了。在14年里，Intel与AMD的CPU都换了好几套微架构了，VC6编译器很可能无法充分发挥它们的性能。而且，从2003年AMD推出了64位处理器开始，现在64位系统越来越普及，我们希望测试64位下的性能。于是选择最新的VC系列编译器——Visual C++ 2010，它是2010年发售的，支持x64平台。一、代码改进1.1 通用字符处理——tchar.h 传统的Windows程序一般使用ANSI+DBCS字符集。而从Windows NT开始，Windows内核采用Unicode字符集。但那时基于A... 阅读全文

posted @ 2012-03-28 16:35 zyl910 阅读(1146) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（3）：VC6速度测试

摘要：wuhanbingwhdx提到了数据相关也会影响流水线（http://blog.csdn.net/zyl910/article/details/1330614）。他的说法是有一定道理的。但是，在很多时候我们并不仅仅处理一个数值。比如将循环展开，在内循环处理2个或更多个的数值。而现代编译器面对循环展开时，在编译优化操作中会调整指令顺序，错开有相关性指令。因现代处理器支持超标量，这样的指令顺序调整能获得较好的指令级并行度，从而优化了性能。其次，就算编译器对循环展开优化的不够彻底，没将相关性指令错开。但因现代处理器支持乱序执行，当遇到相关性指令需要等待时，处理器会处理后面未相关的指令，从... 阅读全文

posted @ 2012-03-27 15:31 zyl910 阅读(988) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（2）：汇编代码分析

摘要：查看编译器生成的汇编代码，有助于我们分析程序的性能。1 让VC6输出编译的汇编代码用VC6打开前一篇文章（http://www.cnblogs.com/zyl910/archive/2012/03/12/noifopex1.html）的工程“noifCheck.dsw”。首先需要配置项目设置——1.点击菜单栏 “工程”->“Project Settings”打开“Project Settings”对话框。2.将“Settings For:”设为“Win32 Release”。3.将右侧的选项卡换到“C/C++”面板。4.点击“Category:”组合框，选择“Listing Fil. 阅读全文

posted @ 2012-03-21 15:10 zyl910 阅读(972) 评论(0) 推荐(0) 编辑

深入探讨用位掩码代替分支（1）：利用带符号移位生成掩码

摘要：几年前我写了一篇“优化分支代码——避免跳转指令堵塞流水线”（http://blog.csdn.net/zyl910/article/details/1330614）。因当时是整理笔记，有些粗略。这几年又有了新的心得，故决定深入探讨，顺便回答网友评论。 housisong（http://blog.csdn.net/housisong）提到了用利用带符号移位生成掩码——(假设n是32bit有符号数): (n>>31) 当n>=0的时候结果为0x00000000，当n<0时得到0xFFFFFFFF掩码，然后利用该掩码来合并分支。这是一个很好的思路，避免了状态寄存器访问。但阅读全文

posted @ 2012-03-12 16:56 zyl910 阅读(3541) 评论(2) 推荐(4) 编辑

x264编码参数大测试：00 索引贴

摘要：x264是一款优秀的H.264编码器，能够压制出低码率高画质的视频。但它的编码参数很多，很多时候不知道怎么挑选。于是我决定做横向测试，彻底搞清楚各种参数的影响。一、测试结果索引为了便于查看，将测试结果放在最前面。 01 subme与crf（a）:http://www.cnblogs.com/zy 阅读全文

posted @ 2011-12-14 21:27 zyl910 阅读(7357) 评论(2) 推荐(0) 编辑

四探C#类与结构体究竟谁快——跨程序集（assembly）调用

摘要：前面的三次测试都是在同一个项目内的，既处于同一个程序集。那么，跨程序集调用会怎么样呢？因为为了保证可维护性，我们会把一些常用操作封装到类库中去。然后实际项目开发时，引用该类库，使得解决方案中存在多个项目。编译完成后，将会是一个主要的exe和若干个dll文件，主exe程序集中的代码会调用dll程序集，既形成了跨程序集调用。分析跨程序集调用的性能，有助优化类库架构的设计。阅读全文

posted @ 2011-10-01 23:13 zyl910 阅读(2010) 评论(3) 推荐(0) 编辑

三探C#类与结构体究竟谁快——MSIL（微软中间语言）解读

摘要：上次我分别测试了类与结构体（http://www.cnblogs.com/zyl910/archive/2011/09/19/2186623.html）、密封类（http://www.cnblogs.com/zyl910/archive/2011/09/20/2186622.html）的函数调用速度评测。现在进行进一步分析，解读编译器生成的MSIL（微软中间语言）代码。一、前期准备先找到“IL 反汇编程序”（开始\程序\Microsoft Visual Studio 2010\Microsoft Windows SDK Tools\）——运行“IL 反汇编程序”，打开编译后的exe。展开节点，阅读全文

posted @ 2011-09-24 12:50 zyl910 阅读(2108) 评论(3) 推荐(2) 编辑

再探C#类与结构体究竟谁快——考虑栈变量、栈分配、64位整数、密封类

摘要：上次我对C#类与结构体做了一次速度评测（http://blog.csdn.net/zyl910/article/details/6788417）。经过一段时间思索，发现还可以进一步探讨——第一、栈变量。上次的“硬编码”，是访问类中的静态变量的。若改为访问函数中的栈变量，性能会不会有所提高？第二、栈分配（stackalloc）。既然要测试栈变量，我们还可以顺便测试一下在栈上分配的内存块的访问性能。第三、64位整数。由于32位系统的成功，我们已经习惯了使用32位整数（int）。现在64位系统逐渐普及，我们得为此做好准备。对于指针操作时经常要用到的偏移量增减运算来说，是使用32位整数，还是使用64位阅读全文

posted @ 2011-09-20 22:17 zyl910 阅读(922) 评论(1) 推荐(1) 编辑

C#类与结构体究竟谁快——各种函数调用模式速度评测

摘要：以前我一直有个疑惑——在C#中，究竟是类（class）比较快，还是结构体（struct）比较快？当时没有深究。最近我遇到一个难题，需要将一些运算大的指针操作代码给封装一下。原先为了性能，这些代码是以硬编码的形式混杂在算法逻辑之中，不但影响了算法逻辑的可读性，其本身的指针操作代码枯燥、难懂、易写错，不易维护。所以我希望将其封装一下，简化代码编写、提高可维护性，但同时要尽可能地保证性能。由于那些指针操作代码很灵活，简单的封装不能解决问题，还需要用到接口（interface）以实现一些动态调用功能。为了简化代码，还打算实现一些泛型方法。本来还想因32位指针、64位指针的不同而构造泛型类，可惜发现C# 阅读全文

posted @ 2011-09-19 00:48 zyl910 阅读(2292) 评论(1) 推荐(0) 编辑

[FileFormat]用VB写的高速GIF、JPEG 编码/解码程序

摘要：1.zSaveGIF下载：http://files.cnblogs.com/zyl910/zSaveGIF.zip快速的GIF编码/解码程序。其中的GIF_LZW编码/解码算法是我最自豪的。2.NetPicTran下载（注意修改下载后的扩展名） ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ （利用GIF_LZW算法实现的）网络图片传输 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~作者：zyl910版本：1.0更新：2004-06-06技术特点~~~~~~~~一、使用TCP协议传输数... 阅读全文

posted @ 2006-05-29 22:59 zyl910 阅读(981) 评论(0) 推荐(0) 编辑

zyl910

公告

搜索

常用链接

我的标签

积分与排名

合集 (2)

随笔分类 (1290)

随笔档案 (215)

My

阅读排行榜

评论排行榜

推荐排行榜

最新评论

随笔分类 - --- Best_重要的