摘要: GPU/CUDA简介 GPU(Graphics Processing Units):图形处理单元 GPU——CPU的协处理器(eg:天河一号) CUDA(Compute Unified Device Architecture):统一计算 设备架构——建立在GPU基础之上的通用计算开发平台 (Only 阅读全文
posted @ 2025-01-13 20:22 AuroraKelsey 阅读(10) 评论(0) 推荐(0) 编辑
摘要: 之前的OpenMP和Pthread是在一台机器上,多核 —— 共享内存多处理器体系结构 MPI 是针对多机器/节点构成的局域网 ——分布式内存体系结构 本章主要讲如何使用消息传递对分布式内存系统编程 MPI概念和基本原语 MPI是一个消息传递接口,定义了一个可以被C++、Fortran调用的函数库。 阅读全文
posted @ 2025-01-13 20:22 AuroraKelsey 阅读(32) 评论(0) 推荐(0) 编辑
摘要: OpenMP 基础 API 、归约、 parallel for 、数据依赖 重排转换、 循环调度 预备知识 OpenMP是针对共享内存并行编程的API,系统中每个线程/进程都可能访问所有可访问的内存区域, no 是Pthread的常见替代,更简单,但限制也更多 通过少量编译指示指出并行部分和数据共享 阅读全文
posted @ 2025-01-13 20:21 AuroraKelsey 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 共享内存编程(共享一部分) POSIX Thread=Pthreads 定义了一套多线程编程的API(应用程序编程接口) 基本概念 Pthread支持 创建并发执行 同步 非显式通信,因为共享内存是隐式的——共享数据的指针传递给线程 Pthread 相对低层,可移植性较好,开发较慢,在系统级代码中广 阅读全文
posted @ 2025-01-13 20:20 AuroraKelsey 阅读(9) 评论(0) 推荐(0) 编辑
摘要: SIMD概念 当前的SIMD架构 多媒体扩展:SSE、AVX 图形和游戏处理器:CUDA SIMD并行的问题 我的理解: 通常在向量寄存器上执行,这些寄存器比普通的CPU寄存器宽,可以存储多个数据元素。例如,一个128位的SIMD寄存器可以存储四个32位的浮点数。 数据被组织成向量,每个向量包含多个 阅读全文
posted @ 2025-01-13 20:19 AuroraKelsey 阅读(13) 评论(0) 推荐(0) 编辑
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示