自监督

自监督学习的方法主要可以分为 3 类:

1.基于上下文(Context based)

基于数据本身的上下文信息,我们其实可以构造很多任务,比如在 NLP 领域中最重要的算法 Word2vec 。Word2vec 主要是利用语句的顺序,例如 CBOW 通过前后的词来预测中间的词,而 Skip-Gram 通过中间的词来预测前后的词。

2.基于时序(Temporal Based)

最能体现时序的数据类型就是视频了(video)。

3.基于对比(Contrastive Based)

 

当前自监督学习可以被大致分为两类:

    1. Generative Methods
    2. Contrastive Methods
 

Generative Methods(生成式方法)这类方法以自编码器为代表,主要关注pixel label的loss。举例来说,在自编码器中对数据样本编码成特征再解码重构,这里认为重构的效果比较好则说明模型学到了比较好的特征表达,而重构的效果通过pixel label的loss来衡量。

Contrastive Methods(对比式方法)这类方法则是通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。Contrastive Methods主要的难点在于如何构造正负样本。

 

相比起Generative Methods需要对像素细节进行重构来学习到样本特征,Contrastive Methods只需要在特征空间上学习到区分性。因此Contrastive Methods不会过分关注像素细节,而能够关注抽象的语义信息,并且相比于像素级别的重构,优化也变得更加简单。

 

对比学习中的损失函数常用的是infoNCE loss(sim是两个向量的余弦值)

 

 

 

 

 

posted @   Tomorrow1126  阅读(378)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· 单线程的Redis速度为什么快?
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
历史上的今天:
2020-08-13 残差
2020-08-13 注意!sin()函数括号中变量单位要变成1,比如a->*pi/100
2020-08-13 matlab笔记四(对向量进行数组运算、获取函数的多个输出)
2020-08-13 matlab笔记三(创建数组函数、数组索引、数组更改)
2020-08-13 matlab笔记二(数组的创建)
2020-08-13 matlab学习笔记一
点击右上角即可分享
微信分享提示