d的整4乘法

LDC,GDC和DMD在实现int4的乘法方面不同.

//------ test-case.d ---------

import core.simd;

int4 mul_4_ints (int4 a, int4 b)
{
    return a * b; // LDC和GDC正常,但`DMD`不正常
}

高效的int4*int4要求Neon或SSE4.1,及:
1,DMD不实现int4*int4.
2,GDC和LDC用替换序列和两条乘法指令实现了它,GDC有该算法.

在intel内部,我现在告诉人们使用_mm_mullo_epi32来保持可移植性,它会变通,因为该操作有类似可移植性陷阱.

两个解决方法:
1,从LDC和GDC中删除支持,因为在SSE4.1以下没有指定硬件支持.用户被迫考虑可移植性.
2,在DMD中添加对int4*int4的支持,以匹配功能.用户可用core.simd而不会担心破坏兼容性.
我不知道什么是最好的,需要带有pmulld指令的Neon或SSE4.1.

对DMD,编译时需要显式传递-mcpu=avx,它在编译时,对给定类型模式,在DMD后端中,使用严格门来确定式是否映射到单个操作码.

即使信息在那且可分别查询GCC或LLVM,GDC和LDC也忽略了该门.并且只是许可性允许操作,这确实表明,当向下传递到后端时,当编译目标没有可用的操作码时,它可能会把操作向量拆分为更窄的模式.

该行为是合理的,因为严格地说,不知道优化器是否会按有支持的操作码来重新写式.
如:'a/b'没有向量操作,但'a>>b'有.

在gdc-13中,默认'-Wvector-operation-performance'是打开的,因此至少会收到在窄模式下扩展式的非阻塞警告.

DMD的该行为与设计一致.(如果使用-mcpu=avx开关,它工作)
变通方案比本地指令慢得多.用户可能没有发现变通方案的慢.通知用户没有针对它的本地指令,用户然后可故意地选择最适合他的指定应用的变通方案.
特别,用户可能不需要本地指令的全部能力,所以用完整语义是负优化,或可选择不要求丢失的本地指令的不同算法.

该行为是马努请求的,他花了大量时间编写高性能向量代码.
GDC和LDC对此有不同的哲学,这是他们的特权.
因此,我把它标记为无效,因为行为是故意的,而不是漏洞.

posted @ 2023-01-29 20:11 zjh6 阅读(55) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· d的七月会议

· d不应延迟初化和赋值小数组

· 如何实现在32位平台实现64位的整数运算？

· x86平台SIMD编程入门(4)：整型指令

· C---数据并行教程-全-

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列01：轻松3步本地部署deepseek，普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现

公告

昵称： zjh6
园龄： 10年3个月
粉丝： 2
关注： 11

+加关注

2025年3月

日

一

二

三

四

五

六

d的整4乘法

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜