2024 年 11月随笔档案 - 安洛8

高性能计算-bgra2rgb转换-向量化优化(15)

摘要：1. 这是一个对图像通道 bgra 转换为 rgb的示例程序。转换方式有普通写法、openmp-simd编译指导语句、neon intrinsic函数三种实现方式 2. 源码 #include <stdio.h> #include <stdlib.h> #include <iostream> #in 阅读全文

posted @ 2024-11-30 16:13 安洛8 阅读(105) 评论(0) 推荐(0) 编辑

高性能计算-向量化优化和循环展开效率对比(14)

摘要：1. 目标对数组求和，对比ARM(neon)向量化优化(SIMD)和循环展开，还有 O0 O1优化的效率对比。 2. 测试代码 #include <arm_neon.h> #include <stdio.h> #include <stdlib.h> #include <time.h> #defin 阅读全文

posted @ 2024-11-25 22:28 安洛8 阅读(36) 评论(0) 推荐(0) 编辑

高性能计算-探究循环分块优化cache miss(13)(接2-1)

摘要：1. 目标：分析循环分块优化技术，并分析cache 命中情况假设每个cacheline可以存储b个数据元素。 2. 源代码分析 for( int i=0;i<N;i++) { for(int j=0;j<M;j++) { A[i] += B[j]; } } cache miss分析：对A总访问次阅读全文

posted @ 2024-11-24 16:06 安洛8 阅读(51) 评论(0) 推荐(0) 编辑

高性能计算-openmp-图像卷积滤波算法(12)

摘要：1. 目标：使用openmp实现图像滤波算法给定一个输入图像，你的任务是将其划分为多个块，并使用多个进程对每个块进行滤波操作。要求： 1、使用分段并行结构和指令section来并行执行不同的计算步骤。 2、使用单线程指令single或master确保某些代码段只在单个线程中执行。 3、使用线程同阅读全文

posted @ 2024-11-23 10:24 安洛8 阅读(26) 评论(0) 推荐(0) 编辑

高性能计算-openmp编程-(探究 for/collapse)(11)

摘要：1. 目标：探究嵌套循环 for 和 collapse 编程 2. 内容 (1). for 并行区默认对最近外层的循环控制变量私有，并对其划分并行，不必指明 private，内层循环体入口的循环控制变量声明及或定义[ for (int i=0;)]默认私有；如果在并行区外声明或定义的内层循环控制变量阅读全文

posted @ 2024-11-16 10:12 安洛8 阅读(49) 评论(0) 推荐(0) 编辑

高性能计算-gemm-openmp效率测试(10)

摘要：1. 目标设计一个程序，使用OpenMP并行化实现矩阵乘法。给定两个矩阵 A 和 B，矩阵大小均为1024*1024，你的任务是计算它们的乘积 C。要求： (1)、使用循环结构体的知识点，包括for循环体并行化、变量规约属性与子句reduction、循环调度策略与子句schedule以及嵌套循环阅读全文

posted @ 2024-11-14 23:28 安洛8 阅读(46) 评论(0) 推荐(0) 编辑

高性能计算-openmp-多线程缓存一致性(9)

摘要：1. 背景介绍 L1 L2 cache是单核独享，L3是多核共享。如果多线程访问共享一维数组的连续元素，先读入第一个线程的L1 缓存中，其他线程访问缓存不命中需要加载，并且数据的更改后，标记为脏数据，其他线程访问cacheline中相邻地址需要先写回内存，再读入目标L1 cache，效率低。使用三份阅读全文

posted @ 2024-11-11 23:30 安洛8 阅读(62) 评论(0) 推荐(0) 编辑

高性能计算-gemm-mpi并行计算优化(8)

摘要：1. 目标: 矩阵A(MK) 矩阵B(KN)相乘，计算结果 C(M*N);本测试将使用不同的数据分块方式、MPI通信接口、数据循环模型，测试通信及计算效率，计算耗时为程序用户态和核心态的占用cpu时间之和。问题1: 如何对数据分块，初始化本进程数据。有以下两种模型模型一. 一维分块，对A行分块，阅读全文

posted @ 2024-11-03 23:49 安洛8 阅读(87) 评论(0) 推荐(0) 编辑

anluo8

11 2024 档案

公告

搜索

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜