02 2020 档案
摘要:1. 优化方向1. 传输、解码、计算流水线2. 多个Stream并发3. 低位数整数运算4. CPU/GPU流水线 2. 每个核函数使用最少的寄存器 3. 必须最大限度地利用全局内存 带宽 4. 5. 开启一级缓存和关闭(K40以上GPU默认关闭) -Xptxas -dlcm=cg (禁用一级缓存)
阅读全文
摘要:g++ -o vmafossexec_cuda src/run_vmaf.cpp.o ../../../../libframereader/libframereader.a -L/data/app/bili_xcode_vmaf_ffmpeg/build/lib -L/usr/local/lib -
阅读全文
摘要:https://devblogs.nvidia.com/separate-compilation-linking-cuda-device-code/ 1. 编译: objects = main.o particle.o v3.o all: (
阅读全文
摘要:GPU=0 CUDNN=0 OPENCV=0 OPENMP=0 DEBUG=0 ARCH= -gencode arch=compute_30,code=sm_30 \ -gencode arch=compute_35,code=sm_35 \ -gencode arch=compute_50,cod
阅读全文