上一页 1 ··· 175 176 177 178 179 180 181 182 183 ··· 272 下一页
摘要: NVIDIA FFmpeg 转码技术分析 所有从 Kepler 一代开始的 NVIDIA GPUs 都支持完全加速的硬件视频编码,而从费米一代开始的所有 GPUs 都支持完全加速的硬件视频解码。截至 2019 年 7 月,Kepler、Maxwell、Pascal、Volta 和 Turing 一代 阅读全文
posted @ 2020-12-17 07:23 吴建明wujianming 阅读(807) 评论(0) 推荐(0) 编辑
摘要: 异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU 。为此,应用程序必须在多个处理器上并发执行函数。 CUDA 应用程序通过在 streams 中执行异步命令来管理并发性,这些命令是按顺序执行的。不同的流可以并发地执行它们的命令,也可以彼此无序地执行它们的命令。 在不指定流的情况下执 阅读全文
posted @ 2020-12-17 06:55 吴建明wujianming 阅读(374) 评论(0) 推荐(0) 编辑
摘要: CUDA统一内存分析 PascalMIG 如 NVIDIA Titan X 和 NVIDIA Tesla P100 是第一个包含页 GPUs 定额引擎的 GPUs ,它是统一内存页错误处理和 MIG 比率的硬件支持。提供了一个很好的机会来学习更多的统一内存。 快 GPU ,快内存…对吗? 正确的! 阅读全文
posted @ 2020-12-16 07:18 吴建明wujianming 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: Tesla T4视频编码性能分析 从开普勒开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码; GPUs 支持完全加速的硬件视频解码。最近发布的图灵硬件提供了张量核心和更好的机器学习性能,但新的 GPU 还加入了新的多媒体功能,如改进的 NVENC 单元,以在视频编解码器中提供更好的压 阅读全文
posted @ 2020-12-16 06:40 吴建明wujianming 阅读(1844) 评论(0) 推荐(0) 编辑
摘要: 自主数据类型:在TVM中启用自定义数据类型探索 介绍 在设计加速器时,一个重要的决定是如何在硬件中近似地表示实数。这个问题有一个长期的行业标准解决方案:IEEE 754浮点标准.1。然而,当试图通过构建高度专业化的设计来最大限度地利用硬件时,使用通用IEEE 754浮点有意义吗?如果知道工作负载的数 阅读全文
posted @ 2020-12-15 15:39 吴建明wujianming 阅读(127) 评论(0) 推荐(0) 编辑
摘要: TinyML-TVM是如何驯服Tiny的(下) Lazy Execution实际上,随着通信开销开始占主导地位,一旦用户请求,就执行算子的开销变得非常昂贵。可以通过延迟评估直到用户需要调用的结果来提高系统的吞吐量。 从实现的角度来看,现在需要在主机端积累函数调用元数据,然后再将其刷新到设备,而不是急 阅读全文
posted @ 2020-12-15 14:59 吴建明wujianming 阅读(128) 评论(0) 推荐(0) 编辑
摘要: TinyML-TVM是如何驯服Tiny的(上) 低成本、人工智能驱动的消费类设备的激增,导致了ML研究人员和从业者对“裸智能”(低功耗,通常没有操作系统)设备的广泛兴趣。虽然专家已经可以在一些裸机设备上运行某些模型,但是为不同设备集优化模型是一个挑战,通常需要手动优化特定于设备的库。对于那些没有Li 阅读全文
posted @ 2020-12-15 14:53 吴建明wujianming 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 如何在TVM上集成Codegen(下) Bring DNNL to TVM: JSON Codegen/Runtime 现在实现将Relay,序列化为JSON表示的DNNL codegen,然后实现DNNL JSON runtime,反序列化和执行。尝试实现codegen,生成C兼容的程序。 要使T 阅读全文
posted @ 2020-12-15 11:47 吴建明wujianming 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 如何在TVM上集成Codegen(上) 许多常用的深度学习内核,或者提供DNNL或TensorRT等框架和图形引擎,让用户以某种方式描述模型,从而获得高性能。此外,新兴的深度学习加速器也有自己的编译器、内核库或runtime框架。 当用户试图在一个新的内核库或设备上工作时,必须学习一个新的编程接口。 阅读全文
posted @ 2020-12-15 11:37 吴建明wujianming 阅读(610) 评论(0) 推荐(0) 编辑
摘要: CodeGen准备存储库 CodeGen几乎总是与提供用于生成源文件的元数据的存储库结构一起使用,并且许多令牌需要使用存储库结构。 基本要求是有一个结构定义,并且该结构定义包含一个或多个字段定义。有些标记还要求定义键,有些则需要具有结构赋值的文件定义。 如果还没有存储库,则可以通过将现有的记录布局文 阅读全文
posted @ 2020-12-15 09:04 吴建明wujianming 阅读(102) 评论(0) 推荐(0) 编辑
上一页 1 ··· 175 176 177 178 179 180 181 182 183 ··· 272 下一页