带掩码的自编码器MAE在各领域中的应用总结
机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的,并且一般情况下都很难进行。
所以各种基于带掩码的自编码器技术就出现了,这种技术允许在未标记的数据上训练模型,并且获得的特征能够适应常见下游任务
- BERT — 最早的遮蔽模型,用于文本任务 1810.04805
- MAE — 图像,可以说它将BERT的辉煌延伸到了视觉 2111.06377
- M3MAE — 图像+文字 2205.14204
- MAE that listen — 音频 2207.06405
- VideoMAE — 视频 2203.12602
- TSFormer — 时间序列 2107.10977
- GraphMAE — 图 2205.10803
从上面我们可以看到 Masked Autoencoder几乎覆盖了大部分的主要研究领域是一种强大而简单的技术,它使用基于transformer的模型进行预训练得到高水平的数据表示,这对在任何下游任务(迁移学习,微调)上采用该模型都很有帮助。
自监督学习是一种不需要任何标签就能获得数据信息表示的方法。标准的自监督学习技术通常使用高级数据增强策略。但是对于文本、音频、大脑信号等形式来说,如何选择增强策略并且保证策略的合理性是一个非常棘手的问题
而Masked Autoencoder不使用这种策略。我们只需要有数据,并且是大量的数据还有必要的计算资源即可。它使用重建的方式根据被部分遮蔽的样本来预测完整的数据。如果遮蔽了大约70%的数据,模型还能够恢复数据的话,则说明模型学习到了数据的良好的高级表示
MAE是如何工作的?
MAE 的工作原理非常简单。看看下面的图片:
训练前需要屏蔽一半以上的Patch(比如75%)。编码器接收可见的Patch块。在编码器之后,引入掩码标记,用一个小(相对于编码器小)解码器对全部编码的Patch和掩码标记进行解码,重建原始图像。下游的任务中,编码器的输出作为特征,下游任务不需要进行遮蔽。
一般流程如下:
- 获取数据样本(图像)。
- 对样本进行区域划分(patches for image, word for text等)
- 应用高比率的随机遮蔽(论文中使用75%)
- 只保留可见的部分,并将它们输入编码器。
- 使用上面的掩码进行填充,将编码器的输出和遮蔽进行合并并且保留原始顺序,作为解码器的输入。
- 解码器来负责重建遮蔽。
就是这么一个简单的流程就能够从数据中提取有意义的特征😍
对于下游的任务,只使用预训练的编码器,因为它学习数据的有用表示。
💡这里需要说明的是,因为由transformer 不依赖于数据的长度,所以在下游使用时可以将完整的样本输入到模型中,也就是说下游的任务不需要进行掩码遮蔽了。
MAE为什么可以在不同的领域中使用?
MAEs可以很容易地适应不同的数据模式。下面图是在视频和音频领域中使用MAE的流程。如果你是这个方向的从业者,试试它吧。
音频的频谱图的MAE
完整文章:
https://avoid.overfit.cn/post/1cc2e21d8fa74edc8ef2d1b9ee64ebed
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)