[Triton课程笔记] 2.2.3 BLS续
一、BLS同步代码讲解
二、BLS异步模式
三、BLS运行机制
四、BLS注意事项
- 内存拷贝开销:
- CPU pipeline,输入复制一次,输出复制两次;
- GPU pipeline,使用cudaIPC,很小开销;
- BLS不支持并发进行的pipeline,只能顺序执行;
- 设置FORCE_CPU_ONLY_INPUT_TENSORS参数来避免CPU-GPU复制;
五、总结
本文版权归作者(https://www.cnblogs.com/harrymore/)和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,如有问题, 可邮件(harrymore@126.com)咨询.