Khronos6 - 博客园

2024年12月

摘要：本文将介绍昇腾 AI 异构计算架构 CANN（Compute Architecture for Neural Networks），这是一套为高性能神经网络计算需求专门设计和优化的架构。CANN 包括硬件层面的达·芬奇架构和软件层面的全栈支持，旨在提供强大的硬件基础和管理网络模型、计算流及数据流的软件阅读全文

posted @ 2024-12-13 21:50 Khronos6 阅读(41) 评论(0) 推荐(0) 编辑

转载：【AI系统】TVM 实践案例

摘要：在本文我们探讨一下，如何利用 AI 编译器在新的硬件上部署一个神经网络，从算法设计到实际运行，有哪些需要考虑的地方？本文将以 TVM 为例，首先介绍一下 TVM 的工作流：导入模型。TVM 可以从 TensorFlow、PyTorch、ONNX 等框架导入模型。转换为 Relay。Relay 是阅读全文

posted @ 2024-12-13 21:50 Khronos6 阅读(20) 评论(0) 推荐(0) 编辑

转载：【AI系统】Auto-Tuning 原理

摘要：在硬件平台驱动算子运行需要使用各种优化方式来提高性能，然而传统的手工编写算子库面临各种窘境，衍生出了自动生成高性能算子的的方式，称为自动调优。在本文我们首先分析传统算子库面临的挑战，之后介绍基于 TVM 的业界领先的三个自动调优系统。高性能算子挑战 DNN 部署的硬件平台越来越多样化，包括 CPU 阅读全文

posted @ 2024-12-13 21:49 Khronos6 阅读(12) 评论(0) 推荐(0) 编辑

转载：【AI系统】指令和存储优化

摘要：除了应用极广的循环优化，在 AI 编译器底层还存在指令和存储这两种不同优化。指令优化指令优化依赖于硬件提供的特殊加速计算指令。这些指令，如向量化和张量化，能够显著提高计算密度和执行效率。向量化允许我们并行处理数据，而张量化则进一步扩展了这一概念，通过将数据组织成更高维度的结构来实现更大规模的并行阅读全文

posted @ 2024-12-13 21:49 Khronos6 阅读(13) 评论(0) 推荐(0) 编辑

转载：【AI系统】算子循环优化

摘要：在具体硬件执行计算的时候，实际会大量地使用 for 等循环指令不断地去读取不同的数据执行重复的指令（SIMT/SIMD），因此循环优化主要是为了提升数据的局部性或者计算的并行性，从而提升整体算子性能，当然这二者都需要 AI 芯片硬件的支持。循环优化挑战数据局部性数据的局部性与计算机存储层次有关阅读全文

posted @ 2024-12-13 21:49 Khronos6 阅读(4) 评论(0) 推荐(0) 编辑

转载：【AI系统】算子手工优化

摘要：在上一篇中，探讨了算子计算和调度的概念，并强调了高效调度策略在释放硬件性能和降低延迟方面的重要性。本文，我们将深入讨论手写算子调度时需要考虑的关键因素，并介绍一些著名的高性能算子库。计算分析在优化算子前，首先需要知道当前程序的瓶颈在哪里，是计算瓶颈还是访存瓶颈。对于这两者，往往是通过 RoofL 阅读全文

posted @ 2024-12-13 21:48 Khronos6 阅读(4) 评论(0) 推荐(0) 编辑

转载：【AI系统】计算与调度

摘要：上一篇我们了解了什么是算子，神经网络模型中由大量的算子来组成，但是算子之间是如何执行的？组成算子的算法逻辑跟具体的硬件指令代码之间的调度是如何配合？计算与调度计算与调度的来源图像处理在当今物理世界中是十分基础且开销巨大的计算应用。图像处理算法在实践中需要高效的实现，尤其是在功耗受限的移动设备上阅读全文

posted @ 2024-12-13 21:47 Khronos6 阅读(3) 评论(0) 推荐(0) 编辑

转载：【AI系统】AI 编译器后端优化

摘要： AI 编译器分为多层架构，最顶层由各种 AI 训练框架编写的神经网络模型架构，一般由 Python 编写，常见的 AI 训练框架有 PyTorch、MindSpore、PaddlePaddle 等。在导入 AI 编译器时需要用对应框架的 converter 功能转换为 AI 编译器统一的 Graph 阅读全文

posted @ 2024-12-13 21:47 Khronos6 阅读(3) 评论(0) 推荐(0) 编辑

转载：【AI系统】代数简化

摘要：代数简化（Algebraic Reduced）是一种从数学上来指导我们优化计算图的方法。其目的是利用交换率、结合律等规律调整图中算子的执行顺序，或者删除不必要的算子，以提高图整体的计算效率。代数化简可以通过子图替换的方式完成，具体实现：1）可以先抽象出一套通用的子图替换框架，再对各规则实例化。2）阅读全文

posted @ 2024-12-13 21:46 Khronos6 阅读(9) 评论(0) 推荐(0) 编辑

转载：【AI系统】死代码消除

摘要：死代码消除（Dead Code Elimination）是一种编译器优化技术，旨在删除程序中不会被执行的代码，从而提高程序的执行效率和资源利用率。死代码是指在程序的当前执行路径下不会被访问或执行的代码片段。传统编译器的死代码消除死代码消除的目的是删除程序中无用和不可达操作对应的代码。在传统编译器阅读全文

posted @ 2024-12-13 21:46 Khronos6 阅读(10) 评论(0) 推荐(0) 编辑

公告