03 2022 档案
摘要:
浅谈软件性能提升相关的概念 原文链接为<Making your program run faster: the key concepts of software performance - Johny's Software Lab> 所有的工程师在其职业生涯的某个阶段都不得不处理软件性能问题——让程
阅读全文

摘要:
译者注:原文<How branches influence the performance of your code and what can you do about it?> 这是关于底层优化的第三篇文章,前面两篇为: 缓存友好程序设计指南 函数代价与优化 我们已经涵盖了与数据缓存和函数调用优化
阅读全文

摘要:译者注:本文原始链接为https://johnysswlab.com/make-your-programs-run-faster-avoid-function-calls/,翻译获得作者同意。 这是程序底层优化的第二篇文章,第一篇文章缓存友好程序设计指南。 现代软件设计像层(layer),抽象(ab
阅读全文
摘要:
通过使用数据缓存加速程序 译者注:本文原始链接为<Make your programs run faster by better using the data cache>,翻译获得作者同意。本文中的一些策略只对大量数据处理有优化的可能,小量数据很可能带来性能下降。 通过使用数据缓存加速程序 开发者
阅读全文

摘要:
Roofline模型原理 Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度(Operational Intensity)下能够达到的理论计算上限 。论文和基础理论和应用 Roofline Model与深度学习模型的性能分析 。本文旨在教授如何根据当前开发环境机器建
阅读全文

摘要:DPC++ 一种新的异构平台,弥补了OPENCL 编写复杂的难题。基于SYCL 抽象层。基于SYCL 有多种实现,其中DPC++是相对成熟的方案。 书籍 由Intel工程师撰写的免费电子图书 Data Parallel C++ | SpringerLink ,书中内容较为详细。由于是英文书籍,所以阅
阅读全文
摘要:理论 在求解n维线性系统 \(Ax=b\) ,我们通常将因子$A$分解为两个三角矩阵,即 \(A=LU\) : \(L\) 是下三角,其中 \(L=[l_{i,j}]\) , 并满足当$j>i$ 时,\(l_{i,j}=0\) 和 \(l_{i,i}=1\) 。 \(U\) 是上三角,其中 \(U=
阅读全文
摘要:
DPC++ Compiler build to support nvidia cards
阅读全文
