10 2023 档案

摘要:使用了共享内存和向量化传输,目前为止效果最好的一个实现 __global__ void transposeSmemVec(float* input, float* output, const int X, const int Y){ __shared__ float smem[32 * 4 * 32 阅读全文
posted @ 2023-10-25 10:52 Wangtn 阅读(83) 评论(0) 推荐(0) 编辑
摘要:子图修改 import onnx import onnx_graphsurgeon as gs import onnxruntime as ort import numpy as np def cut_subgraph(origin_graph_path, input_node_name_list, 阅读全文
posted @ 2023-10-18 13:56 Wangtn 阅读(1050) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示