摘要: 1、MAE 基于VIT,BERT自监督的算法引用到CV;主要思路是遮住大量的块,使用非对称的编码解码器(编码器看非mask块) 视觉和BERT不同点: 1.图片的信息密度高,仅mask部分像素,可以通过周围像素差值来获得,因此这里需要mask掉很大的比例 2、NLP还原的是词,因此通过简单的全连接就 阅读全文
posted @ 2022-12-19 08:57 哈哈哈喽喽喽 阅读(26) 评论(0) 推荐(0) 编辑