Tian Y., Krishnan D., Isola P. CONTRASTIVE REPRESENTATION DISTILLATION. arXiv preprint arXiv 1910.10699, 2019.
概
感觉其和此的相似度有50%, 不过这篇写得早一点, 所以后者是借鉴了这篇文章? 这篇文章总的来说就是将distillation 和 contrastive learning 结合起来.
主要内容

思想便是, 希望fS(xi)靠近fT(xi), 而fS(xj)远离fT(xi). 定义
S:=fS(x),T:=fT(x).
假设源于同一样本的联合分布P(S,T|C=1)为P1(S,T), 而源于不同样本的联合分布P(S,T|C=0)为P0(S)P0(T). 则我们很自然地希望最大化互信息:
I(S,T)=EP1(S,T)logP1(S,T)P0(S)P0(T).
接下来就是负采样和对比学习的东西了, 假设数据集是如此构造的: 一个特征T, 以及N+1个特征{S,S1,…,SN}, 其中S,T构成正样本对(即来源于同一个样本, 其余Si,T构成负样本对. 则我们有先验
P(C=1)=1N+1,P(C=0)=NN+1.
于是便有
P(C=1|T,S)=P1(T,S)P1(T,S)+NP0(T)P0(S),
又
logP(C=1|T,S)=−log(1+NP0(T)P0(S)P1(T,S))≤−logN+logP1(T,S)P0(T)P0(S).
两边关于P1(T,S)求期望可知
I(T,S)≥logN+EP1(T,S)logP(C=1|T,S).
但是P(C=1|T,S)未知, 故作者采用h(T,S)去拟合, 通过极大似然估计
Lcritic(h)=EP1(T,S)logh(T,S)+NEP0(T,S)log(1−h(T,S)).
只要h的拟合能力够强, 最后便能很好的逼近P(C=1|T,S). 设其最优解为h∗. 但是需要注意的一点是, h∗跟T,S有关系, 则其隐式地和fS有关系, 而fS又需要
maxfSEP1logh∗(T,S),
所以这就成了一个交替迭代的过程. 作者就另辟蹊径, 既然
I(T,S)≥logN+EP1(T,S)logh∗(T,S)+NEP0(T,S)log(1−h∗(T,S))≥logN+EP1(T,S)logh(T,S)+NEP0(T,S)log(1−h(T,S)).
便不妨共同优化fS,h.
注: 第二个不等式成立, 因为h(T,S)∈[0,1], 故第二项非正.
文中取的h为
h(T,S)=egT(T)′gS(S)/τegT(T)′gS(S)/τ+NM,
其中, g为一线性变换, τ为temperature, M为整个数据集的大小.
超参数的选择
CIFAR100:
N: 16384
τ: 0.1
代码
原文代码
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2019-10-10 Simplicial principal component analysis for density functions in Bayes spaces