数据结构 class Node { Node* inputs; Node* outputs; } 1. 判断父子节点能否fuse,如果能,则push to fusing_array[父,子]。(注意去重) 2. 对于每个父子节点,调用子节点.fuse(父节点) 伪代码: son.fuse(fathe
首先需要知道nvcc编译过程 cuda => ptx =>SASS (assemble,actually binary) 因此,ptx作为中间层,可以起到缓冲并且兼容的功能。 -arch就是ptx的版本 -code就是sass的版本 因此,如shfl指令在volta上不再支持,(需要shfl.syn
有时候main 函数太远。使用环境变量传递是比较方便的。 在shell中设置环境变量 export xxxenv = xxx 在c++中获取getenv.
Please set them or make sure they are set and tested correctly in the CMake files: CUDA_cublas_device_LIBRARY (ADVANCED)solution:update cmake. https:/
参考leetcode算法leetbook: https://leetcode-cn.com/leetbook/detail/top-interview-questions-medium/ 把算法分为下面几类 1. 数组(和字符串) 2. 链表 3. 树和图 4. 回溯算法 5.排序和搜索 6.动态规
IaaS Infrastructure PaaS Platform SaaS Software
To come together to form one larger group. 同义词 become one 例子 The puddles had coalesced into a small stream. 地面上水洼子里的水汇流成了一条小溪。
CTR点击率预估模型。 特征是巨大且稀疏的。如何输入到Deep模型是个问题。 方法: 首先利用one-hot编码,制作稀疏特征。 然后利用spmm或者gather操作,变成word embedding。 one-hot到word embedding,这样整体的特征维度就下降了。(如100到16的维度
Collective Communication 1. broadcast 2. scatter/gather 3. all gather 4. all to all 更多的集合通信方式,参见NCCL: https://images.nvidia.com/events/sc15/pdfs/NCCL-
Blink - 未开源 - 单机多卡效果较好 - 多机情况受限于网络速度 参考: https://www.infoq.cn/article/8n5rwvusr1w6ss4atgxi
