zombie_black - 博客园

公告

2024年5月15日

摘要：在非root或sudoer用户下进行ncu命令分析cuda程序时，会报错 RR_NVGPUCTRPERM The user running <tool_name/application_name> does not have permission to access NVIDIA GPU Perfo 阅读全文

posted @ 2024-05-15 20:13 zombie_black 阅读(1087) 评论(0) 推荐(0)

2024年4月10日

2024.4.11 Pytorch上手2 //

摘要： Pytorch上手2 ToTensor() 是一个转换操作，它将 PIL 图片或者 NumPy ndarray 转换成 FloatTensor，并且把每一个数值归一化到 [0, 1] 区间（原先的数值区间为 [0, 255]）。这一步是为了方便后续的数值处理和模型训练。 Pillow库介绍： Pil 阅读全文

posted @ 2024-04-10 22:05 zombie_black 阅读(48) 评论(0) 推荐(0)

2024.4.10 AVX2中permute函数补充说明 // OpenMP和MPI编程(积分求PI) // web框架介绍 // bash编程介绍 // gcc编译选项(优化基础)

摘要： permute函数(avx2指令集) 在AVX2中，permute函数用于重新排列输入向量中的元素。这可以用于整数和浮点数向量。具体的permute函数根据操作数的类型（如整数或浮点数）和指令的具体形式（如_mm256_permutevar8x32_epi32，_mm256_permute_ps等）阅读全文

posted @ 2024-04-10 17:07 zombie_black 阅读(600) 评论(0) 推荐(0)

2024年4月9日

2024.4.9 avx加速一维卷积操作(汇总)

摘要：第三次作业提交内容一：源代码在-O3编译优化下执行结果： AVX指令集优化： // conv_avx.cpp bool Convolve1D_Ks5_F64_AVX(double* __restrict__ y, const double* __restrict__ x, const doubl 阅读全文

posted @ 2024-04-09 16:53 zombie_black 阅读(260) 评论(0) 推荐(0)

2024.4.9 AVX加速卷积part2 // Pthreads库学习

摘要： AVX加速卷积part2 重新构筑下昨天的想法：问题：源程序在O2下的执行时间：经过AVX改进后的执行时间：下面尝试在AVX2基础上改进： AVX与AVX2的主要区别和改进：向量整数指令： AVX主要集中在浮点数运算上，提供了对256位宽SIMD（单指令多数据）向量的支持。 AVX2引入了阅读全文

posted @ 2024-04-09 11:13 zombie_black 阅读(81) 评论(0) 推荐(0)

2024年4月8日

2024.4.8 pytorch框架初上手 // AVX加速卷积操作 // GDB基本调试命令

摘要： pytorch框架初上手 PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (tensor库) 中文文档: https://pytorch.org/resources 梯度/导数计算 # linear.py import torch impo 阅读全文

posted @ 2024-04-08 14:20 zombie_black 阅读(164) 评论(0) 推荐(0)

2024年4月7日

2024.4.7 向量化编程AVX/NEON // Pytorch初上手

摘要：向量化编程基本介绍 X86: Intel x86是英特尔公司于1978年推出的16位微处理器；而x86泛指一系列基于Intel 8086且向后兼容的中央处理器指令集架构 Intel ICC和开源的GCC编译器支持SSE/AVX指令的C语言接口（intrinsic，内置函数），在intrin.h头文阅读全文

posted @ 2024-04-07 16:23 zombie_black 阅读(576) 评论(0) 推荐(0)

jibinghu

公告