随笔分类 -  性能系列

摘要:一、背景 写下本文的原因来自一次 bug 排查,平台为某个 Arm64 处理器。 问题简单来说就是,就是申请一块 dma-buf 并映射到用户空间,对 buffer 使用memcpy()时发现一些异常性能问题: 从 dma-buf 向通过malloc()申请的普通堆内存拷贝速度,远慢于从普通堆内存向 阅读全文
posted @ 2024-10-25 01:45 绝对精神的自我展开 阅读(431) 评论(0) 推荐(0) 编辑
摘要:本文来自一次工作里碰到的问题,客户要求我们使用高斯模糊处理某些画面,但由于使用高斯模糊的区域大、多,帧率要求高,且从技术上看最好在窗口合成器中实现,从而导致了较为严重的性能问题,一方面 GPU 使用率飙升,另一方面系统帧率严重下降。因此我专门找到了一种于 2019 年在 SIGGRAPH 上提出的高 阅读全文
posted @ 2024-10-23 22:37 绝对精神的自我展开 阅读(372) 评论(3) 推荐(0) 编辑
摘要:前段时间写基于Neon的OpenCV算法优化算子,突然在想能不能用Neon加速memcpy?遂搜了一下,网上大家都说彳亍,我寻思一下,也觉得彳亍,又跑去看产品上的memcpy实现,发现竟没用Neon指令,于是立马写了个demo验证,而结果令人失望,demo的性能和原版memcpy几乎没区别,甚至可能 阅读全文
posted @ 2024-08-16 01:59 绝对精神的自我展开 阅读(728) 评论(0) 推荐(0) 编辑
摘要:一、并行处理数据方式分类 根据处理器的指令处理数据的并行性特点,目前已经大规模实际应用的类型有四种:SISD MIMD SIMD SIMT。 SISD是伴随计算机诞生之初就出现的数据处理形式,后三种则是在SISD的基础上,提升芯片处理数据能力而发展出的三种并行化的数据处理方式类型,接下来将对四种类型 阅读全文
posted @ 2024-08-16 01:54 绝对精神的自我展开 阅读(196) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示