[Triton课程笔记] 2.2.3 BLS续

课程链接:https://www.bilibili.com/video/BV1ta411u7Zx/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618

一、BLS同步代码讲解

二、BLS异步模式

三、BLS运行机制

四、BLS注意事项

  • 内存拷贝开销:
  • CPU pipeline,输入复制一次,输出复制两次;
  • GPU pipeline,使用cudaIPC,很小开销;
  • BLS不支持并发进行的pipeline,只能顺序执行;
  • 设置FORCE_CPU_ONLY_INPUT_TENSORS参数来避免CPU-GPU复制;

五、总结

posted @ 2024-06-26 15:18  大师兄啊哈  阅读(18)  评论(0编辑  收藏  举报