02 2020 档案

摘要:1. 优化方向1. 传输、解码、计算流水线2. 多个Stream并发3. 低位数整数运算4. CPU/GPU流水线 2. 每个核函数使用最少的寄存器 3. 必须最大限度地利用全局内存 带宽 4. 5. 开启一级缓存和关闭(K40以上GPU默认关闭) -Xptxas -dlcm=cg (禁用一级缓存) 阅读全文
posted @ 2020-02-20 22:42 洛笔达 阅读(429) 评论(0) 推荐(0) 编辑
摘要:g++ -o vmafossexec_cuda src/run_vmaf.cpp.o ../../../../libframereader/libframereader.a -L/data/app/bili_xcode_vmaf_ffmpeg/build/lib -L/usr/local/lib - 阅读全文
posted @ 2020-02-15 19:07 洛笔达 阅读(239) 评论(0) 推荐(0) 编辑
摘要:https://devblogs.nvidia.com/separate-compilation-linking-cuda-device-code/ 1. 编译: objects = main.o particle.o v3.o all: (objects)nvccarch=sm20( 阅读全文
posted @ 2020-02-13 21:30 洛笔达 阅读(2278) 评论(0) 推荐(0) 编辑
摘要:GPU=0 CUDNN=0 OPENCV=0 OPENMP=0 DEBUG=0 ARCH= -gencode arch=compute_30,code=sm_30 \ -gencode arch=compute_35,code=sm_35 \ -gencode arch=compute_50,cod 阅读全文
posted @ 2020-02-12 23:16 洛笔达 阅读(920) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示