SSL

1、MAE

基于VIT，BERT自监督的算法引用到CV；主要思路是遮住大量的块，使用非对称的编码解码器（编码器看非mask块）

视觉和BERT不同点： 1.图片的信息密度高，仅mask部分像素，可以通过周围像素差值来获得，因此这里需要mask掉很大的比例 2、NLP还原的是词，因此通过简单的全连接就可以还原出词，图像还原到像素，因此需要比MLP复杂的解码器
实现细节
1、encoder和decoder不一样
2、不编码mask部分
3、mask掉75%patch

posted @ 2022-12-19 08:57 哈哈哈喽喽喽阅读(26) 评论(0) 编辑收藏举报

刷新页面返回顶部