摘要:
搜索对于生成高性能BLAS真的必要吗? 程序优化的一个关键步骤是评估参数的最优值,例如tile sizes和loop unrolling factors(循环展开因子)。传统编译器使用分析模型来计算这些值,而ATLAS库则在参数的取值空间中进行全局搜索,得到不同的取值组合,再在真实硬件上运行,以此决 阅读全文
摘要:
参考链接 https://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/index.html 阅读全文
摘要:
部署挑战 1、把训练环境的深度学习网络部署到嵌入式平台做推理,会有些技术挑战要解决。 1)工业界有很多深度学习框架,如Caffe,TensorFlow,MXNet,Kaldi等等。 2)训练是在数据中心或服务器集群。而推理是在嵌入式平台(经过性能和耗电优化),这些平台在软件(编程语言,第三方依赖,内 阅读全文
摘要:
gRPC是高性能 参考链接 https://grpc.io/ 阅读全文
摘要:
tensorflow模型可以利用tf.train.Saver类保存成文件。一个模型包含下面四个文件。 meta文件 存储计算图的protobuf。 data-00000-of-00001文件和index文件 存储权值和偏置的二进制文件。 checkpoint文件 存储模型checkpoint信息的文 阅读全文
摘要:
9.0版本的变更 1)__global__函数不能重载。 2) 3) 4)CUDA环境变量增加CUDA_ENABLE_CRC_CHECK。 5)扭曲矩阵函数支持矩阵乘积:m=32, n=8, k=16;m=8, n=32, k=16;m=n=k=16。 6)增加新的统一内存节:系统分配器,硬件相干性 阅读全文
摘要:
Mat cv::imread(const String & filename, int flags = IMREAD_COLOR) imwrite(filename, img[, params]) cvtColor(src, code[, dst[, dstCn]]) resize(src, dsi 阅读全文
摘要:
numpy.concatenate((a1, a2, ...), axis=0, out=None) nan:not a number inf:infinate arange(start, stop, step):[start, stop),step是步长的数组 sin:正弦函数 cos:余弦函数 阅读全文