B60 SIMD - 随笔分类 - zyl910

发布 ExSpans v1.0, 它突破了32位索引的限制, 提供了 nint 索引范围Span类型；并能使内存映射文件支持 Span操作

摘要：Span 存在一个局限性, 它使用的是 int (Int32: 32位整数) 类型的索引. 即使是在 64位操作系统中, 它仅能访问最长 2G(`2^31`) 的数据. 而 `Marshal.AllocHGlobal` 方法在分配内存时支持 nint (IntPtr: 原生整数) 类型的长度, 在 64位系统上能分配超过 2GB 的非托管内存, Span 难以支持这么长的数据. 在没有 Span 的时候, 手动操作非托管内存是非常繁琐的, 而且代码的通用性不高. ExSpan 解决了这一局限性, 它使用 nint 类型的索引. nint 类型的字节大小, 与原生指针完全相同, 故在64位系统上能以64位的索引来访问数据. ExSpan 的用法与 Span 完全相同, 且像 Span 那样提供了大量的工具函数. 这使得它适用于图像处理、视频处理、深度学习等大规模数据的领域. 阅读全文

posted @ 2025-06-16 00:46 zyl910 阅读(101) 评论(0) 推荐(0)

[C#] 24位图像水平翻转的跨平台SIMD硬件加速向量算法的关键——YShuffleX3Kernel源码解读（如Avx2解决shuffle的跨lane问题、Avx512优化等）

摘要：在上一篇文章里，给大家讲解了24位图像水平翻转(FlipX)算法，其中用到了一个关键方法——YShuffleX3Kernel。一些读者对它背后的原理感兴趣——为什么它在跨平台时运行也能获得SIMD硬件加速，各种向量指令集的情况下具体怎样实现的？于是本文便详细解答一下。一、为什么它在跨平台时运行也阅读全文

posted @ 2024-12-11 22:37 zyl910 阅读(378) 评论(3) 推荐(0)

[C#] 对24位图像进行水平翻转(FlipX)的跨平台SIMD硬件加速向量算法（使用YShuffleX3Kernel）

摘要：在上一篇文章里，给大家讲解了32位图像水平翻转(FlipX)算法，于是本文来探讨更加复杂的24位图像水平翻转算法。本文除了会给出标量算法外，还会给出向量算法。且这些算法是跨平台的，同一份源代码，能在 X86（Sse、Avx等指令集）及Arm（AdvSimd等指令集）等架构上运行，且均享有SIMD硬阅读全文

posted @ 2024-12-04 21:44 zyl910 阅读(180) 评论(2) 推荐(0)

[C#] 对32位图像进行水平翻转(FlipX)的跨平台SIMD硬件加速向量算法（使用VectorTraits的YShuffleKernel方法来解决Shuffle的缺点）

摘要：在上一篇文章里，我们讲解了图像的垂直翻转(FlipY)算法，于是本文来探讨水平翻转(FlipX)。先讲解比较容易的32位图像水平翻转算法，便于后续文章来探讨复杂的24位图像水平翻转算法。本文除了会给出标量算法外，还会给出向量算法。且这些算法是跨平台的，同一份源代码，能在 X86（Sse、Avx等指阅读全文

posted @ 2024-12-01 22:01 zyl910 阅读(148) 评论(0) 推荐(0)

[C#] .NET8增加了Arm架构的多寄存器的查表函数（VectorTableLookup/VectorTableLookupExtension）

摘要：作者： zyl910 发现.NET8增加了Arm架构的多寄存器的查表函数（VectorTableLookup/VectorTableLookupExtension），这给编写SIMD向量化算法带来了方便。一、指令说明在学习Arm的AdvSimd（Neon）指令集时，发现它的Lookup（查表）功阅读全文

posted @ 2024-03-23 22:48 zyl910 阅读(328) 评论(0) 推荐(1)

C# 使用SIMD向量类型加速浮点数组求和运算（5）：如何查看Release程序运行时汇编代码

摘要：作者： [zyl910](http://www.cnblogs.com/zyl910/) [TOC] ## 一、引言前面的几篇文章里，介绍了 C# 编写向量算法的各种办法。虽然也做了一些基准测试，初步验证了向量算法的效率高。但是由于 CPU睿频、其他进程抢占CPU资源等原因，基准测试的结果不太阅读全文

posted @ 2023-08-19 18:56 zyl910 阅读(393) 评论(0) 推荐(1)

.NET 向量类型的运算结果范例——用于学习Vector类所提供百多个向量方法

摘要：作者： zyl910 一、背景从.NET Core 1.0（或 .NET Framework 4.5、.NET Standard 1.0）开始，.NET中便可以使用具有SIMD硬件加速的向量类型了。其中大小与硬件相关的向量（Vectors with a hardware dependent si 阅读全文

posted @ 2022-11-20 21:51 zyl910 阅读(630) 评论(0) 推荐(1)

C# 使用SIMD向量类型加速浮点数组求和运算（2）：C#通过Intrinsic直接使用AVX指令集操作 Vector256<T>，及C++程序对比

摘要：作者： zyl910 一、缘由在上一篇文章，介绍了.NET的2种向量类型（Vector4、Vector<T>）。本文来介绍第3种。 .NET Core 3.0 增加了对内在函数（Intrinsics Functions）的支持，并增加了第3种向量类型—— 3. 总位宽固定的向量（Vector o 阅读全文

posted @ 2022-09-18 22:25 zyl910 阅读(1277) 评论(2) 推荐(2)

SIMD函数整理：01 《PC平台新技术MMX（上册）：开发编程指南》第8章 MMX编码技术

摘要：一、来源来源：《PC平台新技术MMX（上册）：开发编程指南》第8章 MMX编码技术书籍信息——http://e.360buy.com/30027396.htmlPC平台新技术MMX（上册）：开发编程指南作者：吴乐南编出版社：东南大学出版社ＩＳＢＮ：9787810502528出版时间：1997-10-01页数：149字数：237000所属分类：电子书 > 计算机与互联网 > 编程语言与程序设计电子书 > 计算机与互联网 > 计算机工具书二、整理后的代码代码——#include <Windows.h>#include <st 阅读全文

posted @ 2012-04-26 21:59 zyl910 阅读(2423) 评论(0) 推荐(0)

SIMD函数整理：00 索引贴（2012-07-31更新）

摘要：作者：zyl910 关于SIMD（MMX、SSE、AVX）编程的资料一直很零散，于是我试图进行收集整理，便于随时翻阅学习。而且很多代码是直接用汇编写的，易读性差、难以重用，于是我决定将其统一改写为Intrinsics函数版。一、Instructions函数对照表在使用Instructions函数时，很多时候会发现MSDN说的不详细，这时只有去翻阅Intel、AMD文档了。但Intel、AMD文档都是按照汇编指令名排序的，查起来不太方便。而且SIMD指令大多很复杂，文字描述难以详细的解释其功能，唯有伪代码才能精确的解释其功能。但Intel、AMD文档上的伪代码大多很长，不适合随时翻阅。... 阅读全文

posted @ 2012-04-26 21:53 zyl910 阅读(6950) 评论(0) 推荐(3)

SIMD（MMX/SSE/AVX）变量命名规范心得

摘要：当使用Intrinsics函数来操作SIMD指令集（MMX/SSE/AVX等）时，会面对不同长度的SIMD数据类型，其中又分为多种紧缩格式。为此，我设计了一套SIMD变量命名规范，可以有效的提高代码的可读性。一、SIMD数据类型简介 SIMD数据类型有——__m64：64位紧缩整数（MMX）。__m128：128位紧缩单精度（SSE）。__m128d：128位紧缩双精度（SSE2）。__m128i：128位紧缩整数（SSE2）。__m256：256位紧缩单精度（AVX）。__m256d：256位紧缩双精度（AVX）。__m256i：256位紧缩整数（AVX）。注：紧缩整数包括了8位、16... 阅读全文

posted @ 2012-04-23 17:49 zyl910 阅读(9966) 评论(1) 推荐(1)

深入探讨用位掩码代替分支（9）：测试成绩总结

摘要：一、测试结果汇总将前面的测试结果进行汇总，整理为表格（单位是毫秒，数值越小越好）—— 测试f0_iff1_minf2_negf3_sarf4_mmxf5_sseVC6 on 32bit2016206371967237.525.7VC6 on 64bit2028207571868737.125.3VC2010(32) on 32bit17932112512437VC2010(32) on 64bit17162106514437VC2010(64) on 64bit16231997421328C#2010(any) on 32bit192221472471559C#2010(any) on... 阅读全文

posted @ 2012-04-13 17:20 zyl910 阅读(1847) 评论(2) 推荐(0)

深入探讨用位掩码代替分支（8）：SSE指令集速度测试

摘要：在上一篇测试了MMX指令集，这次我们来测试SSE指令集。说的更精确一点，是测试SSE2指令集。本篇致力于解决以下问题——1.SSE/SSE2指令集是什么？2.如何阅读Intel/AMD的手册？3.如何运用SSE指令集？如何将MMX代码升级为SSE代码。4.如何在VC++6.0这样的高级语言编译器中使用MMX指令集？一、简介 1999 年 Intel 推出了第 1 代的 SSE（Streaming SIMD Extensions）指令以回击 AMD 的 3DNow! 指令，使用在 Pentium III 处理器上。随后 AMD 在 2001 年 10 月发布的 Athlon XP ... 阅读全文

posted @ 2012-04-12 22:09 zyl910 阅读(4561) 评论(2) 推荐(0)

深入探讨用位掩码代替分支（7）：MMX指令集速度测试

摘要：前面我们测试了高级语言做饱和处理的性能。其实，对于这样的大批量数据处理，使用SIMD（Single Instruction Multiple Data，单指令多数据流）技术能极大的提高性能。MMX指令集是目前x86平台上覆盖最广的SIMD指令集，于是本文对它进行探讨。本文致力于解决以下问题——1.MMX指令集是什么？2.如何阅读Intel/AMD的手册？2.如何运用MMX指令集？3.如何在VC++6.0这样的高级语言编译器中使用MMX指令集？一、MMX指令集简介 MMX（Multi Media eXtension，多媒体扩展指令集）指令集是Intel公司于1996年推出的一项多媒体指... 阅读全文

posted @ 2012-04-09 22:25 zyl910 阅读(3477) 评论(0) 推荐(0)

zyl910

公告

随笔分类 - B60 SIMD