[Triton课程笔记] 2.2.3 BLS续

 


课程链接:https://www.bilibili.com/video/BV1ta411u7Zx/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618

一、BLS同步代码讲解

二、BLS异步模式

三、BLS运行机制

四、BLS注意事项

  • 内存拷贝开销:
  • CPU pipeline,输入复制一次,输出复制两次;
  • GPU pipeline,使用cudaIPC,很小开销;
  • BLS不支持并发进行的pipeline,只能顺序执行;
  • 设置FORCE_CPU_ONLY_INPUT_TENSORS参数来避免CPU-GPU复制;

五、总结

posted @   大师兄啊哈  阅读(136)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示