LSTM 又回来了! 新论文使用LSTM挑战长序列建模的 ViT

不到两年的时间ViT 已经彻底改变了计算机视觉领域,利用transformers 强大的自注意机制来替代卷积,最近诸如 MLP-Mixer 和通过精心设计的卷积神经网络 (CNN) 等方法也已经实现了与 ViT 相当的性能。

在新论文 Sequencer: Deep LSTM for Image Classification 中,来自Rikkyo University 和 AnyTech Co., Ltd. 的研究团队检查了不同归纳偏差对计算机视觉的适用性,并提出了 Sequencer,它是 ViT 的一种架构替代方案,它使用传统的LSTM而不是自注意力层。Sequencer 通过将空间信息与节省内存和节省参数的 LSTM 混合来降低内存成本,并在长序列建模上实现与 ViT 竞争的性能。

Sequencer 架构采用双向 LSTM (BiLSTM) 作为构建块,并受 Hou 等人的 2021 Vision Permutator (ViP) 启发,并行处理垂直轴和水平轴。研究人员引入了两个 BiLSTM,以实现上/下和左/右方向的并行处理,由于序列长度缩短,从而提高了 Sequencer 的准确性和效率,并产生了具有空间意义的感受野。

Sequencer 将不重叠的补丁作为输入,并将它们与特征图匹配。Sequencer 模块有两个子组件:1)BiLSTM 层可以全局地混合空间信息记忆2)用于通道混合的多层感知机(MLP)。与现有架构一样,最后一个块的输出通过全局平均池化层发送到线性分类器。

 完整文章
posted @ 2022-05-12 11:15  deephub  阅读(77)  评论(0编辑  收藏  举报