转换无极限

2019年11月28日

摘要：部分内容from: Tensorflow C++ 从训练到部署(1)：环境搭建在之前的编译中，已经编译好了tensorflow_pkg相关的wheel。现在有一个需求，需要按照C++的代码进行模型加载和训练。查询资料后发现，需要重新编译一套TensorFlow支持的C++接口，主要是编译出来lib 阅读全文

posted @ 2019-11-28 10:08 转换无极限阅读(6219) 评论(0) 推荐(0) 编辑

2019年7月11日

LLVM的RTTI特性

摘要：本文思路来源于http://llvm.org/docs/HowToSetUpLLVMStyleRTTI.html，叙述有不同，望谅解，希望能从其他方面帮助大家了解C++语言的底层实现。背景在LLVM中默认禁止了C++的RTTI特性（RTTI特性的开关-fno-rtti），主要是为了性能考虑（C+ 阅读全文

posted @ 2019-07-11 22:13 转换无极限阅读(2034) 评论(0) 推荐(0) 编辑

2019年6月30日

LLVM使用其他Pass的结果

摘要：之前的工作一直集中在clang中，最近有点空闲时间，又重新熟悉了一下Pass的书写过程。（参考LLVM CookBook和http://llvm.org/docs/WritingAnLLVMPass.html）比如要实现一个基本的读取函数名的Pass，比如FuncBlockCount.cpp 大概阅读全文

posted @ 2019-06-30 01:18 转换无极限阅读(1962) 评论(2) 推荐(0) 编辑

2019年5月20日

ONNX预训练模型加载

摘要： tvm官网中，对从ONNX预训练模型中加载模型的教程说明教程来自于：https://docs.tvm.ai/tutorials/frontend/from_onnx.html#sphx-glr-tutorials-frontend-from-onnx-py 首先我对教程进行了一些修改，很多东西没有阅读全文

posted @ 2019-05-20 10:44 转换无极限阅读(5961) 评论(0) 推荐(0) 编辑

2019年5月14日

OpenCl入门——实现简单卷积

摘要：现在的卷积实现无非是那么几种：直接卷积、im2col+gemm、局部gemm、wingrod、FFT。如果直接卷积的话，其实kernel函数是比较好实现。以下代码参考至《OpenCL Programing Guide》，主要是main函数各种构造比较麻烦，个人感觉，OpenCL为了追求平台的移植性，阅读全文

posted @ 2019-05-14 14:16 转换无极限阅读(1884) 评论(0) 推荐(0) 编辑

2019年5月5日

LLVM新建全局变量

摘要：在LLVM中，有原生的AST Clone，却没有一个比较好的Stmt copy功能，基于Scout在LLVM上进行的修改，我们实现了自己的Stmt Clone功能。要进行Stmt Clone，肯定需要新建新的AST节点，首先用一个立即介绍如何进行AST节点的构建，以新建一个全局的variable为阅读全文

posted @ 2019-05-05 16:42 转换无极限阅读(1338) 评论(0) 推荐(0) 编辑

2019年4月28日

OpenCl入门getting-started-with-opencl-and-gpu-computing

摘要：原文来自于：getting-started-with-opencl-and-gpu-computing/ 对整个程序的注释：http://www.kimicat.com/opencl-1/opencl-jiao-xue-yi 但是对CUDA比较熟悉的用户来说，应该不需要看注释就能理解全部的程序 ma 阅读全文

posted @ 2019-04-28 14:38 转换无极限阅读(518) 评论(0) 推荐(0) 编辑

2019年4月26日

TVM图优化（以Op Fusion为例）

摘要：首先给出一个TVM 相关的介绍，这个是Tianqi Chen演讲在OSDI18上用的PPT https://files.cnblogs.com/files/jourluohua/Tianqi-Chen-TVM-Stack-Overview.rar 对于图优化来说，位于整个软件编译栈比较高的层次：首阅读全文

posted @ 2019-04-26 15:12 转换无极限阅读(9045) 评论(2) 推荐(0) 编辑

2019年4月24日

CUDA中使用多维数组

摘要：今天想起一个问题，看到的绝大多数CUDA代码都是使用的一维数组，是否可以在CUDA中使用一维数组，这是一个问题，想了各种问题，各种被77的错误状态码和段错误折磨，最后发现有一个cudaMallocManaged函数，这个函数可以很好的组织多维数组的多重指针的形式，后来发现，这个问题之前在Stack 阅读全文

posted @ 2019-04-24 23:16 转换无极限阅读(1535) 评论(0) 推荐(0) 编辑

2019年4月23日

Caffe之layer_factory

摘要：之前在测试NN中各个层的时间的时候，遇到一个非常奇怪的问题，分别使用Caffe自己的gpu方法和cuDNN方法，在卷积上性能差异非常大，但是在pooling层上基本没有变化。抽空检查了代码之后，发现是layer_factory模式导致的问题。下面就以下几个方面来进行 1.工厂模式 2.layer_f 阅读全文

posted @ 2019-04-23 14:37 转换无极限阅读(706) 评论(0) 推荐(0) 编辑

异构编译器与编程，欢迎邮件讨论jourluohua@sina.com

公告