12 2021 档案

摘要:数据结构 class Node { Node* inputs; Node* outputs; } 1. 判断父子节点能否fuse,如果能,则push to fusing_array[父,子]。(注意去重) 2. 对于每个父子节点,调用子节点.fuse(父节点) 伪代码: son.fuse(fathe 阅读全文
posted @ 2021-12-23 19:28 xuyv 编辑
摘要:首先需要知道nvcc编译过程 cuda => ptx =>SASS (assemble,actually binary) 因此,ptx作为中间层,可以起到缓冲并且兼容的功能。 -arch就是ptx的版本 -code就是sass的版本 因此,如shfl指令在volta上不再支持,(需要shfl.syn 阅读全文
posted @ 2021-12-16 14:44 xuyv 编辑
摘要:有时候main 函数太远。使用环境变量传递是比较方便的。 在shell中设置环境变量 export xxxenv = xxx 在c++中获取getenv. 阅读全文
posted @ 2021-12-10 16:48 xuyv 编辑
摘要:Please set them or make sure they are set and tested correctly in the CMake files: CUDA_cublas_device_LIBRARY (ADVANCED)solution:update cmake. https:/ 阅读全文
posted @ 2021-12-09 17:40 xuyv 编辑

点击右上角即可分享
微信分享提示