摘要:
GPU创业之火 壁仞,燧原,沐曦,天数,希姆,翰博,摩尔线程 壁仞科技首款7nm芯片尚未流片,为何又获前AMD全球副总裁加盟? 观察者网梳理发现,GPU(Graphics processing unit)被称作显示芯片,是擅长做图像图形相关运算工作的微处理器。GPGPU全称是通用图形处理器(Gene 阅读全文
摘要:
Yolo v4, v3 and v2 性能图示 https://github.com/AlexeyAB/darknet 参考链接: https://github.com/AlexeyAB/darknet 阅读全文
摘要:
英伟达TensorRT 8-bit Inference推理 引论 ● 目标:将FP32 CNN转换为INT8,不会造成显著的精度损失。 ● 原因:Int8 Math具有更高的吞吐量和更低的内存需求。 ● 挑战:INT8的精度和动态范围,明显低于FP32。 ● 解决方案:在将训练模型权权重化为INT8 阅读全文
摘要:
如何将自定义代码生成TVM 如何将自定义代码生成TVM 本文参考链接: https://tvm.apache.org/docs/dev/how_to/relay_bring_your_own_codegen.html https://blog.csdn.net/weixin_42164269/art 阅读全文
摘要:
TVM代码流程分析 TVM - 代码生成流程 本节主要介绍TVM的代码生成流程,即调用relay.build或tvm.build之后发生了什么,将深入到TVM的源代码进行剖析。(这里采用的依然是TVM v0.6) 首先区分两个build的区别:tvm.build主要针对单一算子(参照Tensor E 阅读全文
摘要:
TVM实现hardware backend官方的矩阵相加的示例如下:2个矩阵相加的实现for (int i = 0; i < n; ++i) { C[i] = A[i] + B[i];}怎么优化? 可以并行相加,如下for (int bx = 0; bx < ceil(n / 64); ++bx) 阅读全文
摘要:
TVM自定义修改代码示例 一.TVM设备添加代码 因为要添加的设备是一种类似于GPU的加速卡,TVM中提供了对GPU编译器的各种支持,有openCl,OpenGL和CUDA等,这里选取比较熟悉的CUDA进行模仿生成。总体上看,TVM是一个多层的结构。 TVM在python这一层提供了相关的设备接口, 阅读全文
摘要:
tvm模型部署c++ 分析 tvm c++部署官方教程 https://github.com/apache/tvm/tree/main/apps/howto_deploy https://tvm.apache.org/docs/how_to/deploy/cpp_deploy.html 官方说执行r 阅读全文
摘要:
使用Tensor Expression张量表达式处理算子 这是TVM中Tensor表达语言的入门教程。TVM使用特定于域的张量表达式来进行有效的内核构造。 本文将演示使用张量表达式语言的基本工作流程。 from __future__ import absolute_import, print_fun 阅读全文
摘要:
TVM优化c++部署实践 使用TVM导入神经网络模型: 模型支持pytorch , tensorflow , onnx, caffe 等。平时pytorch用的多,这里给一种pytorch的导入方式。 github代码仓:https://github.com/leoluopy/autotvm_tut 阅读全文