摘要:
下面介绍了cblas中常用缩略词的含义,api https://blog.csdn.net/weixin_43800762/article/details/87811697 阅读全文
摘要:
tic-toc.s对外提供两个接口,void tic(void), uint64_t toc(void), 用法基本类似matlab的tic toc函数,toc函数返回的是cycles, 转换成时间需要除cpu tsc的频率,tsc频率一般不是cpu主频,而是最大频率的1/2,(cpu有最大和睡眠频 阅读全文
摘要:
SWIG的python接口使用demo 主要准备三个文件,example.h, example.i, example.c, example.i, %module example %{ #include "example.h" %} %include "example.h" //exampe.h in 阅读全文
摘要:
#include <stdio.h> #include <cuda_runtime.h> // 128 x 128 -> __global__ void mm(float* a, float* b, float* c) { // 8 x 8个方块,每个方块16x16 extern __shared_ 阅读全文
摘要:
编译x86的kernel export ARCH=x86_64 export CROSS_COMPILE=x86_64-linux-gnu- make defconfig make -j32 中间出现了libelf.h找不到, sudo apt-get install libelf-dev bc解决 阅读全文
摘要:
下面的cuda代码为什么指定compute capability = 8.0 后在A100上跑结果不对? nvcc a.cu # 正确 nvcc a.cu -gencode arch=compute_80,code=sm_80 # 结果不正确 // a.cu #include <cuda_runti 阅读全文
摘要:
这个问题一般都是pip install 下载的源不在国内,可以参考 https://zhuanlan.zhihu.com/p/129866307 指定清华源,让下载速度飞起来, pip install -r requirements.txt -i https://pypi.tuna.tsinghua 阅读全文
摘要:
register_hook 参考资料: [Pytorch] Tensor底层机制 https://blog.csdn.net/smartcat2010/article/details/118882020 cudaLauchKernel传入参数的一个提问 https://cloud.tencent.c 阅读全文
摘要:
LD_LIBRARY_PATH地址设置.非root用户 . ${HOME}/Ascend/ascend-toolkit/set_env.sh #若开发套件包Ascend-cann-toolkit在非昇腾设备上安装,则如下环境变量必须执行,用于设置动态链接库所在路径,否则无需执行 export LD_ 阅读全文
摘要:
torch中的矩阵乘法 torch.matmul应该是打包的函数,/home/zwl/software/pytorch/torch/csrc/autograd/generated/python_torch_functions_0.cpp:4865 static PyObject * THPVaria 阅读全文