安洛8 - 博客园

2025年3月12日

摘要： 1. 延迟隐藏作用：可以最大化SM的使用效率，提高计算性能 2. 延迟隐藏概念（1）指令延迟是指令发出到完成之间的时钟周期间隔；（2）指令可以分为两种：算数指令和访存指令。 3. 算数指令延迟隐藏实现（1）假如一个算数指令的指令延迟是 4 个时钟周期（2）查询cuda文档得到如下计算能力的设阅读全文

posted @ 2025-03-12 23:24 安洛8 阅读(3) 评论(0) 推荐(0) 编辑

2025年2月19日

高性能计算-GPU单进程多卡(多流)并行计算编程模型示例(25)

摘要： 1. 简介 (1) 使用CPU对向量点乘进行串行计算 (2) 对数据进行分块,使用单进程多卡(多流)并行计算 (3) 使用不同数据规模,比较加速比的变化 2. 代码 #include <stdio.h> #include <sys/time.h> #include <stdlib.h> #defin 阅读全文

posted @ 2025-02-19 16:56 安洛8 阅读(11) 评论(0) 推荐(0) 编辑

2025年1月7日

高性能计算-CUDA单流/多流调度(24)

摘要： 1. 介绍： (1) 用CUDA计算 pow(sin(id),2)+ pow(cos(id),2)的结果 (2) 对比单流(同步传输、异步传输)、多流深度优先调度、多流广度优先调度的效率(包含数据传输和计算) 核心代码 1. 用CUDA计算 pow(sin(id),2)+ pow(cos(id),2 阅读全文

posted @ 2025-01-07 11:48 安洛8 阅读(51) 评论(0) 推荐(0) 编辑

2025年1月4日

高性能计算-CUDA矩阵加法及优化测试(23)

摘要： 1. 目标：对 16384*16384 规模的矩阵进行加法运算，对比 CPU 和 GPU 计算的效率，还有不同线程块大小规模下对效率的影响；并做可能的优化测试。 2. 核心代码 /* 用GPU对二维矩阵做加法，分析不同线程块规模下的性能变化 */ #include <stdio.h> #includ 阅读全文

posted @ 2025-01-04 16:21 安洛8 阅读(42) 评论(0) 推荐(0) 编辑

2024年12月31日

高性能计算-CUDA一维信号均值滤波及内存优化(22)

摘要： 1. 目标：使用CPU和GPU对一千万数量级的一维信号进行均值滤波，并且根据GPU存储模型对数据存储进行优化，最终对比计算结果并计算加速比。 2. 代码 /* cuda实现对一维信号卷积平滑滤波处理，并于串行计算对比结果和加速比,卷积核大小为5 */ #include <stdio.h> #incl 阅读全文

posted @ 2024-12-31 18:48 安洛8 阅读(25) 评论(0) 推荐(0) 编辑

2024年12月29日

高性能计算-GPU编程模型(21)

摘要： 1. GPU的内存模型 GPU编程数据需要从CPU主存拷贝到GPU全局存储器，所有线程共享全局存储。开辟的全局存储器空间指针在CPU代码中不能解引用使用，应在计算完结果后再拷贝回CPU主存空间。线程块内共享存储。 (1) 线程私有的存储有寄存器、本地内存 (2) 线程块内有块内线程共享的共享内存，在阅读全文

posted @ 2024-12-29 22:21 安洛8 阅读(17) 评论(0) 推荐(0) 编辑

2024年12月17日

高性能计算-Intel IPP库ARM移植示例(20)

摘要： 1. 简介 (1) Intel® Integrated Performance Primitives，即英特尔集成性能基元（简称IPP），为信号、数据和图像处理特定应用领域，提供simd优化的一组全面的函数库。 (2) 本项目将对 exp、cos、sin、tone、Triangle函数用NEON向量阅读全文

posted @ 2024-12-17 17:34 安洛8 阅读(87) 评论(0) 推荐(0) 编辑

2024年12月10日

高性能计算-粒子状态模拟计算-性能优化(19)

摘要： 1. 源码为对粒子移动状态模拟的项目。要求使用多种优化方法，对比串行优化、多线程优化、全部优化下的加速比。 2. 代码项目代码地址：https://github.com/libo-0379/StellarSim_Optimize 以下为核心优化代码及分析 #include <stdlib.h> # 阅读全文

posted @ 2024-12-10 11:20 安洛8 阅读(19) 评论(0) 推荐(0) 编辑

2024年12月4日

高性能计算-NEON-图像旋转(18)

摘要： 1. 目标：使用 NEON intrinsic 函数，对512*512 png 四通道图像顺时针旋转90度。思路: 像素分块，对块内转置；再水平镜像。图像库使用 stb img 2. 代码 #include <stdio.h> #include <arm_neon.h> #include <std 阅读全文

posted @ 2024-12-04 22:05 安洛8 阅读(40) 评论(0) 推荐(0) 编辑

2024年12月3日

高性能计算-NEON-intrinsic函数(17)

摘要： 1. 对寄存器数据重排 /* 两个向量，每两个通道一组，第一个向量每组的后一个元素与第二个向量每组的第一个元素一次彼此交换 */ #include <stdio.h> #include <arm_neon.h> void main() { int arrc[8]={0}; int arrd[4]={ 阅读全文

posted @ 2024-12-03 16:02 安洛8 阅读(13) 评论(0) 推荐(0) 编辑

2024年12月1日

高性能计算-gemv-向量化优化(16)

摘要： 1. 目标：矩阵向量乘法 y = A * x (列向量 = 矩阵 *列向量)，进行串行，循环展开+simd, simd+omp的效率对比。 2. 源码 #include <iostream> #include <ctime> #include <arm_neon.h> #include <omp.h 阅读全文

posted @ 2024-12-01 18:30 安洛8 阅读(85) 评论(0) 推荐(0) 编辑

2024年11月30日

高性能计算-bgra2rgb转换-向量化优化(15)

摘要： 1. 这是一个对图像通道 bgra 转换为 rgb的示例程序。转换方式有普通写法、openmp-simd编译指导语句、neon intrinsic函数三种实现方式 2. 源码 #include <stdio.h> #include <stdlib.h> #include <iostream> #in 阅读全文

posted @ 2024-11-30 16:13 安洛8 阅读(118) 评论(0) 推荐(0) 编辑

2024年11月25日

高性能计算-向量化优化和循环展开效率对比(14)

摘要： 1. 目标对数组求和，对比ARM(neon)向量化优化(SIMD)和循环展开，还有 O0 O1优化的效率对比。 2. 测试代码 #include <arm_neon.h> #include <stdio.h> #include <stdlib.h> #include <time.h> #defin 阅读全文

posted @ 2024-11-25 22:28 安洛8 阅读(46) 评论(0) 推荐(0) 编辑

2024年11月24日

高性能计算-探究循环分块优化cache miss(13)(接2-1)

摘要： 1. 目标：分析循环分块优化技术，并分析cache 命中情况假设每个cacheline可以存储b个数据元素。 2. 源代码分析 for( int i=0;i<N;i++) { for(int j=0;j<M;j++) { A[i] += B[j]; } } cache miss分析：对A总访问次阅读全文

posted @ 2024-11-24 16:06 安洛8 阅读(55) 评论(0) 推荐(0) 编辑

2024年11月23日

高性能计算-openmp-图像卷积滤波算法(12)

摘要： 1. 目标：使用openmp实现图像滤波算法给定一个输入图像，你的任务是将其划分为多个块，并使用多个进程对每个块进行滤波操作。要求： 1、使用分段并行结构和指令section来并行执行不同的计算步骤。 2、使用单线程指令single或master确保某些代码段只在单个线程中执行。 3、使用线程同阅读全文

posted @ 2024-11-23 10:24 安洛8 阅读(30) 评论(0) 推荐(0) 编辑

2024年11月16日

高性能计算-openmp编程-(探究 for/collapse)(11)

摘要： 1. 目标：探究嵌套循环 for 和 collapse 编程 2. 内容 (1). for 并行区默认对最近外层的循环控制变量私有，并对其划分并行，不必指明 private，内层循环体入口的循环控制变量声明及或定义[ for (int i=0;)]默认私有；如果在并行区外声明或定义的内层循环控制变量阅读全文

posted @ 2024-11-16 10:12 安洛8 阅读(68) 评论(0) 推荐(0) 编辑

2024年11月14日

高性能计算-gemm-openmp效率测试(10)

摘要： 1. 目标设计一个程序，使用OpenMP并行化实现矩阵乘法。给定两个矩阵 A 和 B，矩阵大小均为1024*1024，你的任务是计算它们的乘积 C。要求： (1)、使用循环结构体的知识点，包括for循环体并行化、变量规约属性与子句reduction、循环调度策略与子句schedule以及嵌套循环阅读全文

posted @ 2024-11-14 23:28 安洛8 阅读(71) 评论(0) 推荐(0) 编辑

2024年11月11日

高性能计算-openmp-多线程缓存一致性(9)

摘要： 1. 背景介绍 L1 L2 cache是单核独享，L3是多核共享。如果多线程访问共享一维数组的连续元素，先读入第一个线程的L1 缓存中，其他线程访问缓存不命中需要加载，并且数据的更改后，标记为脏数据，其他线程访问cacheline中相邻地址需要先写回内存，再读入目标L1 cache，效率低。使用三份阅读全文

posted @ 2024-11-11 23:30 安洛8 阅读(74) 评论(0) 推荐(0) 编辑

2024年11月3日

高性能计算-gemm-mpi并行计算优化(8)

摘要： 1. 目标: 矩阵A(MK) 矩阵B(KN)相乘，计算结果 C(M*N);本测试将使用不同的数据分块方式、MPI通信接口、数据循环模型，测试通信及计算效率，计算耗时为程序用户态和核心态的占用cpu时间之和。问题1: 如何对数据分块，初始化本进程数据。有以下两种模型模型一. 一维分块，对A行分块，阅读全文

posted @ 2024-11-03 23:49 安洛8 阅读(103) 评论(0) 推荐(0) 编辑

2024年10月27日

高性能计算-雅可比算法-MPI重复非阻塞优化(7)

摘要： #include <stdio.h> #include <mpi.h> #include <unistd.h> #include <stdlib.h> #define S 4 //分块方阵的大小 #define RB 8 //行方向分块维数 #define B RB*RB //并行进程数 #defi 阅读全文

posted @ 2024-10-27 23:00 安洛8 阅读(24) 评论(0) 推荐(0) 编辑

anluo8

公告