10 2023 档案
摘要:使用了共享内存和向量化传输,目前为止效果最好的一个实现 __global__ void transposeSmemVec(float* input, float* output, const int X, const int Y){ __shared__ float smem[32 * 4 * 32
阅读全文
摘要:子图修改 import onnx import onnx_graphsurgeon as gs import onnxruntime as ort import numpy as np def cut_subgraph(origin_graph_path, input_node_name_list,
阅读全文