CONTRASTIVE REPRESENTATION DISTILLATION

Tian Y., Krishnan D., Isola P. CONTRASTIVE REPRESENTATION DISTILLATION. arXiv preprint arXiv 1910.10699, 2019.

感觉其和的相似度有50%, 不过这篇写得早一点, 所以后者是借鉴了这篇文章? 这篇文章总的来说就是将distillation 和 contrastive learning 结合起来.

主要内容

在这里插入图片描述

思想便是, 希望fS(xi)靠近fT(xi), 而fS(xj)远离fT(xi). 定义

S:=fS(x),T:=fT(x).

假设源于同一样本的联合分布P(S,T|C=1)P1(S,T), 而源于不同样本的联合分布P(S,T|C=0)P0(S)P0(T). 则我们很自然地希望最大化互信息:

I(S,T)=EP1(S,T)logP1(S,T)P0(S)P0(T).

接下来就是负采样和对比学习的东西了, 假设数据集是如此构造的: 一个特征T, 以及N+1个特征{S,S1,,SN}, 其中S,T构成正样本对(即来源于同一个样本, 其余Si,T构成负样本对. 则我们有先验

P(C=1)=1N+1,P(C=0)=NN+1.

于是便有

P(C=1|T,S)=P1(T,S)P1(T,S)+NP0(T)P0(S),

logP(C=1|T,S)=log(1+NP0(T)P0(S)P1(T,S))logN+logP1(T,S)P0(T)P0(S).

两边关于P1(T,S)求期望可知

I(T,S)logN+EP1(T,S)logP(C=1|T,S).

但是P(C=1|T,S)未知, 故作者采用h(T,S)去拟合, 通过极大似然估计

Lcritic(h)=EP1(T,S)logh(T,S)+NEP0(T,S)log(1h(T,S)).

只要h的拟合能力够强, 最后便能很好的逼近P(C=1|T,S). 设其最优解为h. 但是需要注意的一点是, hT,S有关系, 则其隐式地和fS有关系, 而fS又需要

maxfSEP1logh(T,S),

所以这就成了一个交替迭代的过程. 作者就另辟蹊径, 既然

I(T,S)logN+EP1(T,S)logh(T,S)+NEP0(T,S)log(1h(T,S))logN+EP1(T,S)logh(T,S)+NEP0(T,S)log(1h(T,S)).

便不妨共同优化fS,h.

注: 第二个不等式成立, 因为h(T,S)[0,1], 故第二项非正.

文中取的h

h(T,S)=egT(T)gS(S)/τegT(T)gS(S)/τ+NM,

其中, g为一线性变换, τ为temperature, M为整个数据集的大小.

超参数的选择

CIFAR100:
N: 16384
τ: 0.1

代码

原文代码

posted @   馒头and花卷  阅读(774)  评论(0编辑  收藏  举报
编辑推荐:
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2019-10-10 Simplicial principal component analysis for density functions in Bayes spaces
点击右上角即可分享
微信分享提示