Khronos6 - 博客园

2024年12月

摘要：前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将以英伟达 GPU 为例，讲解 GPU 的编程模型。 GPU 编程模型 CUDA 英伟达公司于 2007 年发布了 CUDA，支持编程人员利用更为通用的方式对阅读全文

posted @ 2024-12-13 18:59 Khronos6 阅读(58) 评论(0) 推荐(0)

转载：【AI系统】SIMD & SIMT 与 CUDA 关系

摘要：前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将对不同并行的编程方式进行讲解，以英伟达 GPU 为例，讲解 GPU 的编程模型。实现并行的编程方式从指令级别的执行方式来看，一共有三种不同的编程模阅读全文

posted @ 2024-12-13 18:59 Khronos6 阅读(239) 评论(0) 推荐(0)

转载：【AI系统】SIMD & SIMT 与芯片架构

摘要：为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系，本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质，以及对 NVIDIA CUDA 底层实现 SIMD/SIMT 的原理进行讲解。 SIMD 计算本质 SIMD 是对多个进行同样操作的处理元素同时进行同等的计算操作阅读全文

posted @ 2024-12-13 18:58 Khronos6 阅读(116) 评论(0) 推荐(0)

转载：【AI系统】芯片的编程体系

摘要：本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系，SIMT 与 CUDA 编程之间的关系，并且会讨论 GPU 在 SIMT 编程本质，SIMD、SIMT 与 DSA 架构，DSA 架构的主要形态。目前已经有大量的 AI 芯片研发上市，但是如何开发基于硬件的编译栈与编程体系，让开发者更好地使用阅读全文

posted @ 2024-12-13 18:58 Khronos6 阅读(44) 评论(0) 推荐(0)

转载：【AI系统】昇腾数据布局转换

摘要： NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。截止到 2024 年，华为昇腾在私有格式的数据处理和特殊的数据形态越来越少，主要是得益于 AI 编译器和软件的迭代升级，更加阅读全文

posted @ 2024-12-13 18:58 Khronos6 阅读(146) 评论(0) 推荐(0)

转载：【AI系统】昇腾 AI 核心单元

摘要：本文将深入介绍昇腾 AI 处理器的核心单元——AI Core，以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器，其核心 AI Core 采用了特定域架构（Domain Specific Architecture，DSA），专门为深度学习算法中常见的计算模式进行优化。阅读全文

posted @ 2024-12-13 18:57 Khronos6 阅读(165) 评论(0) 推荐(0)

转载：【AI系统】昇腾 AI 处理器

摘要：本文将会介绍华为昇腾 AI 处理器的架构与卷积加速原理。昇腾 AI 处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器，它支持云边端一体化的全栈全场景解决方案，具有高能效比和强大的 3D Cube 矩阵计算单元，支持多种计算模式和混合精度计算。昇腾 AI 处理器的架构包括了 AI Core、阅读全文

posted @ 2024-12-13 18:57 Khronos6 阅读(352) 评论(0) 推荐(0)

转载：【AI系统】昇腾 AI 架构介绍

摘要：昇腾计算的基础软硬件是产业的核心，也是 AI 计算能力的来源。华为，作为昇腾计算产业生态的一员，是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。而本文介绍的 AI 系统整体架构（如图所示），则是对应与昇腾 AI 产业的全栈架构较为相似。因此这里以昇腾计算产业作为例子阅读全文

posted @ 2024-12-13 18:56 Khronos6 阅读(138) 评论(0) 推荐(0)

转载：【AI系统】寒武纪介绍

摘要：中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日，其名字 Cambricon 是由 Cambrian（寒武纪）和 Silicon（硅）组合成。企业使命是：为客户创造价值，成为持续创新的智能时代领导者，企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合阅读全文

posted @ 2024-12-13 18:56 Khronos6 阅读(282) 评论(0) 推荐(0)

转载：【AI系统】谷歌 TPUv4 与光路交换

摘要： TPU v4 和 TPU v3 中间相差了四年，在这四年之间，谷歌即使发布了许多对于业界非常重要的研究成果，但是在 TPU 的正代芯片上却没有什么更新。实际上，在 2018 年的 TPU v3 之后，谷歌花了更多的精力在面向大众的芯片上，例如谷歌 Tensor、Pixel 手机系列里的各种处理单元等阅读全文

posted @ 2024-12-13 18:55 Khronos6 阅读(102) 评论(0) 推荐(0)

公告