Loading

随笔分类 -  高性能计算

openmp、oneAPI、Cuda
摘要:译者注:原文<Loop Optimizations: taking matters into your hands> 你可以先阅读 上一篇文章 来了解编译器如何对循环进行优化,然后再继续阅读这篇文章。 在你了解了编译器如何优化你的代码之后,接下来的两个问题是:你如何帮助编译器更好地完成它的工作,以及 阅读全文
posted @ 2022-04-09 16:41 PcDack 阅读(859) 评论(0) 推荐(0) 编辑
摘要:浅谈软件性能提升相关的概念浅谈软件性能提升相关的概念 原文链接为<Making your program run faster: the key concepts of software performance - Johny's Software Lab> 所有的工程师在其职业生涯的某个阶段都不得不处理软件性能问题——让程 阅读全文
posted @ 2022-03-31 21:05 PcDack 阅读(460) 评论(0) 推荐(1) 编辑
摘要:译者注:本文原始链接为https://johnysswlab.com/make-your-programs-run-faster-avoid-function-calls/,翻译获得作者同意。 这是程序底层优化的第二篇文章,第一篇文章缓存友好程序设计指南。 现代软件设计像层(layer),抽象(ab 阅读全文
posted @ 2022-03-22 20:08 PcDack 阅读(1291) 评论(0) 推荐(1) 编辑
摘要:手把手建立Roofline模型(CPU)Roofline模型原理 Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度(Operational Intensity)下能够达到的理论计算上限 。论文和基础理论和应用 Roofline Model与深度学习模型的性能分析 。本文旨在教授如何根据当前开发环境机器建 阅读全文
posted @ 2022-03-19 10:55 PcDack 阅读(3800) 评论(0) 推荐(0) 编辑
摘要:DPC++ 一种新的异构平台,弥补了OPENCL 编写复杂的难题。基于SYCL 抽象层。基于SYCL 有多种实现,其中DPC++是相对成熟的方案。 书籍 由Intel工程师撰写的免费电子图书 Data Parallel C++ | SpringerLink ,书中内容较为详细。由于是英文书籍,所以阅 阅读全文
posted @ 2022-03-17 21:33 PcDack 阅读(894) 评论(0) 推荐(0) 编辑
摘要:理论 在求解n维线性系统 \(Ax=b\) ,我们通常将因子$A$分解为两个三角矩阵,即 \(A=LU\) : \(L\) 是下三角,其中 \(L=[l_{i,j}]\) , 并满足当$j>i$ 时,\(l_{i,j}=0\) 和 \(l_{i,i}=1\) 。 \(U\) 是上三角,其中 \(U= 阅读全文
posted @ 2022-03-17 08:04 PcDack 阅读(414) 评论(0) 推荐(0) 编辑