在全连接层中进行批量数据并行执行
在全连接层中进行批量数据并行执行
在全连接网络中,为了增加并发性并减少权重的负载,可以同时处理一批图像(来自多个视频通道),如图11-31所示。

图11-31 增加并发性并减少权重的负载,可以同时处理一批图像
11.2.6 特征缓存
在流处理中,对输入和结果使用双缓冲区。对于下一次循环,只需切换这些缓冲区的使用(使用输入缓冲区作为输出,反之亦然),这就避免了需要将数据保存到芯片外存储器中,如图11-32所示。

图11-32 在流处理中,对输入和结果使用双缓冲区
11.2.7 滤波器缓存
可以使用双缓冲区,其中一个缓冲区存储当前卷积的权重,而另一个缓冲区用于预取下一个卷积的权重,以提高并发性,如图11-33所示。

图11-33 一个缓冲区存储权重,而另一个缓冲区预取下一个权重,以提高并发性
11.2.8 低精度
作为AI硬件设计的普遍趋势,供应商正在探索在推理中使用具有相同范围覆盖的低精度数据,例如下面的FP11将具有FP16相同的范围,但由于尾数较小,精度较低。在FPGA中用于推理的数据类型是可配置的,并且FPGA在创建不同数据大小的算术电路方面提供了很大的灵活性。如图11-34所示。

图11-34 FPGA中用于推理的数据类型是可配置的
11.3 详解FPGA AI算力芯片(下)
11.3.1 英特尔Stratix 10 NX FPGA(用于AI推理)
英特尔Stratix 10 NX FPGA是专门为AI设计的,具有AI张量块。这些块包含密集的低精度乘法器阵列,针对矩阵和向量乘法进行了调整,可执行INT4、INT8、Block FP12或Block FP16操作。此外,这些张量块可以级联在一起,支持大型矩阵。如图11-35所示。

图11-35 英特尔Stratix 10 NX FPGA是专门为AI设计的,具有AI张量块
AI张量块包含30个乘法器和30个累加器,而不是DSP块中的两个。此FPGA还包括集成的HBM2存储器和高速收发器。
人工智能芯片与自动驾驶
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-09-06 GPU计算性能参数分析
2022-09-06 汽车电子电路技术完整分析
2021-09-06 半导体材料工艺技术