人工智能五大硬件总结

中央处理器(CPU)

CPU 是计算机的大脑,负责执行大部分计算任务和系统控制。它能够处理通用计算任务,包括算术运算、逻辑运算、控制指令等。CPU 的核心设计目标是尽可能提高通用计算的效率和能效。它广泛应用于个人电脑、服务器和嵌入式系统中。

  • AMD Yes
  • Fuck you Intel

图形处理器(GPU)

GPU 最初设计用于加速图形渲染(Arm Mali),但现在已经成为处理并行计算任务的重要工具。与 CPU 相比,GPU 拥有更多的处理核心,能够同时处理大量数据。这使得它在深度学习、科学计算、视频编解码等领域变得极为重要。

  • 性价比未必最优,但通用性最强
  • 硬件成本低,但往往售价昂贵
  • 编译器成熟度取决于厂商
    • 如果使用 Cuda 则会有一个相对成熟的编译器和驱动
    • 如果使用 OpenCL 则质量层次不齐(壁仞科技、景嘉微、摩尔线程)

可编程阵列(FPGA)

FPGA 是一种可编程硬件,它允许用户通过软件来定义其逻辑功能。这种灵活性使得 FPGA 在实现特定算法和加速特定计算任务时非常有用,尤其是在那些需要快速迭代和原型开发的应用中。FPGA 也常用于硬件加速、网络处理和特定类型的嵌入式系统中。

  • 有可以编程的逻辑单元和可配置的连接
  • 可以配置用于计算复杂函数
  • 可以反复擦写,编程
  • 工具链质量
  • 编译时间过长

数字信号处理器(DSP)

DSP 专门设计用于处理数字信号,比如音频、视频和传感器数据。它拥有高度优化的硬件结构,能够快速执行复杂的数学运算,特别是在需要实时处理的应用中,如音频处理、图像处理和通信系统。比较牛逼的仅此一家,高通,其他家在深度学习领域都不是很行。

  • 低功耗
  • VLIW: Very long instruction word,一条指令上百次乘累加(CPU SIMD 加速后一般是4到8次),一次必须计算这么长,如果输入没有这么大会造成浪费
  • 编程和调试困难
  • 编译器质量不定

专用集成电路(ASIC)

ASIC 指的是用于特定领域的芯片,有专用于神经网络的 NPU,也有专用于 Transformer 的 TPU。

  • 一定低成本,但不一定低功耗(数据中心不是特别在乎功耗)
  • 特定领域有特定的 ASIC 芯片
    • MCU/MPU 领域要求极低功耗:Arm Ethos-U
    • SOC 领域要求低功耗:瑞芯微 NPU、Arm 周易 NPU、华为麒麟 NPU
    • 数据中心领域不要求功耗:海光 DCU、华为昇腾 NPU、Google TPU
  • ASIC 芯片一般适配于特定算法。以 Transfomer 为例子,Transformer 模型需要处理大量的参数和中间激活值,高带宽内存访问可以减少数据传输瓶颈,提高计算效率。而 TPU 一般由多个芯片组成,有大量的内存和带宽,因此适合用于 Transformer 的计算。
  • NPU 和 DCU 都用于加速神经网络计算,但是 NPU 用于低功耗场景,DCU 用于不限制功耗的场景。
posted @   Zheng-Bicheng  阅读(136)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
点击右上角即可分享
微信分享提示