DeepBurning: automatic generation of FPGA-based learning accelerators for the neural network family

Title

DeepBurning: automatic generation of FPGA-based learning accelerators for the neural network family

Proceedings of the 53rd Annual Design Automation Conference

contribution：

包含四层的一个卷积网络

多层感知机(MLP)的硬件加速例子：

地址生成单元（AGU)

(有点像DMA)

Main AGU：on-chip与off-chip之间的数据通信
Data AGU: 从on-chip内存中取输入数据或特征数据
- 起始地址offset
- 布局：feature=[div_tile_num, width, height, K]
Weight AGU: 从on-chip内存中取权重数据
- weight=[out_channel, kernel_x, kernel_y, div_tile_num, K]

Approx LUT Generation

近似LUT用于实现激活函数，输入放入LUT的索引中，预先存储输出结果，通过存储的有限样本近似激活函数来进行模拟。编译器解析复杂函数，选择采样点，计算Approx LUT中填写的值。

命中LUT的输入就直接输出LUT的结果，否则通过线性插值生成输入的近似结果

Dynamic Control flow

动态控制流：用数据将实例化的IP核连接运行起来，控制从AGU里取数据，放入IP核里进行计算，得到输出数据，通过AGU写入内存，再调用下一个IP核通过AGU取数据运行，反复上述

57*57的特征图，12*12的卷积核，步长为4

问题：如果按照行布局，带宽的利用率很低，取一整行，只有前12个数被用到

方法：

特征图分块为大小为12*12的块tile，块中的数据是被连续放在内存中的，所以就利用了数据的局部性
按照步长分区，减少数据访问次数，提高数据的重用。需要进一步使用partition分区将12*12切割成3*3个块，每个块里面有4*4个点，这16个点连续的放在内存中。

具体的局部算法：

k=d，对数据分块，分块大小为k*k
- （s=1怎么办？数据重复访问了）
  - k=d=2: 2 2 2
k!=d, s=cd(k, d) ,数据的分块大小为s*s ，tile可以重用，减少重复访问
- （按照步长分块确实减少了重复的访问，那么数据的重用是否有缓冲区的建立？）
  - k=6,d=4: 2*2 2*2
else：f=cd(k,d,s)，分块大小为k,d,s的公约数。交错布局
- k=12,d=6,s=4，那么f=2，造成了带宽的浪费
  - d=6,f=2: 2*2+2 2+2*2