1.首先使用了一个网络进行初步预测(文章中命名为Bottom-Up CNN)
2.使用一个网络来抽取之前Botton_Up CNN的特征(具体怎么训练的还没看)
3.对于top-Down CNN抽取出的特征进行融合,得到最后的网络
总体网络结构: