带掩码的自编码器MAE在各领域中的应用总结

机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的，并且一般情况下都很难进行。

所以各种基于带掩码的自编码器技术就出现了，这种技术允许在未标记的数据上训练模型，并且获得的特征能够适应常见下游任务

从上面我们可以看到 Masked Autoencoder几乎覆盖了大部分的主要研究领域是一种强大而简单的技术，它使用基于transformer的模型进行预训练得到高水平的数据表示，这对在任何下游任务(迁移学习，微调)上采用该模型都很有帮助。

自监督学习是一种不需要任何标签就能获得数据信息表示的方法。标准的自监督学习技术通常使用高级数据增强策略。但是对于文本、音频、大脑信号等形式来说，如何选择增强策略并且保证策略的合理性是一个非常棘手的问题

而Masked Autoencoder不使用这种策略。我们只需要有数据，并且是大量的数据还有必要的计算资源即可。它使用重建的方式根据被部分遮蔽的样本来预测完整的数据。如果遮蔽了大约70%的数据，模型还能够恢复数据的话，则说明模型学习到了数据的良好的高级表示

MAE是如何工作的？

MAE 的工作原理非常简单。看看下面的图片：

训练前需要屏蔽一半以上的Patch(比如75%)。编码器接收可见的Patch块。在编码器之后，引入掩码标记，用一个小（相对于编码器小）解码器对全部编码的Patch和掩码标记进行解码，重建原始图像。下游的任务中，编码器的输出作为特征，下游任务不需要进行遮蔽。

一般流程如下:

就是这么一个简单的流程就能够从数据中提取有意义的特征😍

对于下游的任务，只使用预训练的编码器，因为它学习数据的有用表示。

💡这里需要说明的是，因为由transformer 不依赖于数据的长度，所以在下游使用时可以将完整的样本输入到模型中，也就是说下游的任务不需要进行掩码遮蔽了。

MAEs可以很容易地适应不同的数据模式。下面图是在视频和音频领域中使用MAE的流程。如果你是这个方向的从业者，试试它吧。

音频的频谱图的MAE

完整文章：

posted @ 2022-09-09 10:57 deephub 阅读(407) 评论(0) 收藏举报

刷新页面返回顶部