摘要:
ray 用户指南: Task ray可以使得任何函数都可以在python workers上异步执行;这种函数是ray 远程函数,它们的异步调用称为ray tasks。以下为一个例子: import ray import time # A regular Python function. def no 阅读全文
摘要:
Ray core 这篇博客将介绍Ray core,这是一个强大的分布式计算框架,其中提供了一些比较重要的原语,比如tasks, actors, and objects来构建和scale分布式应用。 ray引入了针对高性能的workloads,尤其是多个GPU,实验性的api--compiled gr 阅读全文
摘要:
cute 教程 04 Algorithms 在这篇博客中,我们总结对Tensor操作的interface和实现. copy cute的copy算法主要是将src的元素拷贝到dst的元素 接口和特化 一个Tensor封装了数据类型,数据位置以及编译期已知的tensor的shape和stride;因此c 阅读全文
摘要:
Cute教程 03 tensor 这篇博客将描述Tensor, 它是应用layout概念的核心载体。 本质上,Tensor表示一个多维数组,Tensor排除了数组元素如何进行组织的细节以及数组元素如何存储。 一个Tensor可以通过两个模板参数描述, Engine和Layout. 数据的layout 阅读全文
摘要:
GPU mode: Cutlass and FA 3 本次talk的大纲: 复习attention和FA 从高层次理解FA3算法 将算法翻译成cutlass搭建的code attention机制介绍 $$O=Softmax(QK^T)V$$ attention随着序列长度的变化是二次的scale。 阅读全文