随笔分类 - 性能系列
摘要:一、背景 写下本文的原因来自一次 bug 排查,平台为某个 Arm64 处理器。 问题简单来说就是,就是申请一块 dma-buf 并映射到用户空间,对 buffer 使用memcpy()时发现一些异常性能问题: 从 dma-buf 向通过malloc()申请的普通堆内存拷贝速度,远慢于从普通堆内存向
阅读全文
摘要:本文来自一次工作里碰到的问题,客户要求我们使用高斯模糊处理某些画面,但由于使用高斯模糊的区域大、多,帧率要求高,且从技术上看最好在窗口合成器中实现,从而导致了较为严重的性能问题,一方面 GPU 使用率飙升,另一方面系统帧率严重下降。因此我专门找到了一种于 2019 年在 SIGGRAPH 上提出的高
阅读全文
摘要:前段时间写基于Neon的OpenCV算法优化算子,突然在想能不能用Neon加速memcpy?遂搜了一下,网上大家都说彳亍,我寻思一下,也觉得彳亍,又跑去看产品上的memcpy实现,发现竟没用Neon指令,于是立马写了个demo验证,而结果令人失望,demo的性能和原版memcpy几乎没区别,甚至可能
阅读全文
摘要:一、并行处理数据方式分类 根据处理器的指令处理数据的并行性特点,目前已经大规模实际应用的类型有四种:SISD MIMD SIMD SIMT。 SISD是伴随计算机诞生之初就出现的数据处理形式,后三种则是在SISD的基础上,提升芯片处理数据能力而发展出的三种并行化的数据处理方式类型,接下来将对四种类型
阅读全文