摘要:
git am一个patch应用到本地后又后悔了,这时想要撤销这个patch,但用git reset后还是不行并出现"You are in the middle of an am session"错误,并且修改并没有还原到和线上一致。 这时首先应该执行 git am --abort 执行完后"You 阅读全文
摘要:
环境: python 错误描述: ImportError: dynamic module does not define module export function 解决方案: 检查是不是有一个和import的模块名同名的.so文件* 阅读全文
摘要:
unsorted_segment_sum 在tensorflow中遇到了unsorted_segment_sum作用差不多的几个算子,追溯了一下源码,mark一下。 tf.math.unsorted_segment_sum版本 tf.math.unsorted_segment_sum( data, 阅读全文
摘要:
Hello World Docker 示例 准备hello.cpp #include<stdio.h> int main(){ printf("Hello World Docker\n"); return 0; } 新建Dockerfile文件(不区分大小写,默认指令全大写) FROM gcc:9. 阅读全文
摘要:
CUDA中关于C++特性的限制 CUDA官方文档中对C++语言的支持和限制,懒得每次看英文文档,自己尝试翻译一下(没有放lambda表达式的相关内容,太过于复杂,我选择不用)。官方文档https://docs.nvidia.com/cuda/cuda-c-programming-guide/inde 阅读全文
摘要:
敲代码的时候总是会去CUDA官方文档中找找思路,感觉每次看英文文档都要耗费一点时间来翻译,干脆自己翻译一下便于以后查阅。官方文档:cuda-c-language-extensions 函数修饰符 CUDA函数修饰符主要包括__global__、__device__ 和__host__ ,每个修饰符指 阅读全文
摘要:
Cooperative Groups [TOC] Cooperative Groups(协同组) 是CUDA 9.0引入的一个新概念,主要用于跨线程块(block)的同步。为使用Cooperative Groups,我们需要包含头文件 ,同时需要 命名空间。 简介 在CUDA 9.0之前,CUDA仅 阅读全文
摘要:
前几天做half量化时发现cublas竟然没有提供half版本的矩阵 向量乘,也就是half版本的 。自己写一个又太麻烦,重点是精度和耗时不一定比cublas提供的要好,不过cublas提供了half版本的矩阵 矩阵乘函数 ,只要维度没啥问题,用 实现 ,既方便又好用。 废话不多说,直接上。 前置准 阅读全文