jibinghu

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2024年5月15日

摘要: 在非root或sudoer用户下进行ncu命令分析cuda程序时,会报错 RR_NVGPUCTRPERM The user running <tool_name/application_name> does not have permission to access NVIDIA GPU Perfo 阅读全文
posted @ 2024-05-15 20:13 zombie_black 阅读(223) 评论(0) 推荐(0) 编辑

2024年4月10日

摘要: Pytorch上手2 ToTensor() 是一个转换操作,它将 PIL 图片或者 NumPy ndarray 转换成 FloatTensor,并且把每一个数值归一化到 [0, 1] 区间(原先的数值区间为 [0, 255])。这一步是为了方便后续的数值处理和模型训练。 Pillow库介绍: Pil 阅读全文
posted @ 2024-04-10 22:05 zombie_black 阅读(12) 评论(0) 推荐(0) 编辑

摘要: permute函数(avx2指令集) 在AVX2中,permute函数用于重新排列输入向量中的元素。这可以用于整数和浮点数向量。具体的permute函数根据操作数的类型(如整数或浮点数)和指令的具体形式(如_mm256_permutevar8x32_epi32,_mm256_permute_ps等) 阅读全文
posted @ 2024-04-10 17:07 zombie_black 阅读(216) 评论(0) 推荐(0) 编辑

2024年4月9日

摘要: 第三次作业 提交内容一: 源代码在-O3编译优化下执行结果: AVX指令集优化: // conv_avx.cpp bool Convolve1D_Ks5_F64_AVX(double* __restrict__ y, const double* __restrict__ x, const doubl 阅读全文
posted @ 2024-04-09 16:53 zombie_black 阅读(94) 评论(0) 推荐(0) 编辑

摘要: AVX加速卷积part2 重新构筑下昨天的想法: 问题: 源程序在O2下的执行时间: 经过AVX改进后的执行时间: 下面尝试在AVX2基础上改进: AVX与AVX2的主要区别和改进: 向量整数指令: AVX主要集中在浮点数运算上,提供了对256位宽SIMD(单指令多数据)向量的支持。 AVX2引入了 阅读全文
posted @ 2024-04-09 11:13 zombie_black 阅读(13) 评论(0) 推荐(0) 编辑

2024年4月8日

摘要: pytorch框架初上手 PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (tensor库) 中文文档: https://pytorch.org/resources 梯度/导数计算 # linear.py import torch impo 阅读全文
posted @ 2024-04-08 14:20 zombie_black 阅读(40) 评论(0) 推荐(0) 编辑

2024年4月7日

摘要: 向量化编程 基本介绍 X86: Intel x86是英特尔公司于1978年推出的16位微处理器;而x86泛指一系列基于Intel 8086且向后兼容的中央处理器指令集架构 Intel ICC和开源的GCC编译器支持SSE/AVX指令的C语言接口(intrinsic,内置函数),在intrin.h头文 阅读全文
posted @ 2024-04-07 16:23 zombie_black 阅读(240) 评论(0) 推荐(0) 编辑