12 2021 档案
摘要:数据结构 class Node { Node* inputs; Node* outputs; } 1. 判断父子节点能否fuse,如果能,则push to fusing_array[父,子]。(注意去重) 2. 对于每个父子节点,调用子节点.fuse(父节点) 伪代码: son.fuse(fathe
阅读全文
摘要:首先需要知道nvcc编译过程 cuda => ptx =>SASS (assemble,actually binary) 因此,ptx作为中间层,可以起到缓冲并且兼容的功能。 -arch就是ptx的版本 -code就是sass的版本 因此,如shfl指令在volta上不再支持,(需要shfl.syn
阅读全文
摘要:有时候main 函数太远。使用环境变量传递是比较方便的。 在shell中设置环境变量 export xxxenv = xxx 在c++中获取getenv.
阅读全文
摘要:Please set them or make sure they are set and tested correctly in the CMake files: CUDA_cublas_device_LIBRARY (ADVANCED)solution:update cmake. https:/
阅读全文