Alemi A. A., Fischer I., Dillon J. V. and Murphy K. Deep variational information bottleneck. In International Conference on Learning Representations (ICLR), 2017.
概
本文介绍了 Information Bottleneck 理论如何用在一般的特征建模上.
本文内容
-
假设我们拥有数据 X 和目标 Y, 我们希望通过 p(z|x;θ) 来建模隐变量 Z. 自然地, 我们会希望 Z 和我们的目标 Y 之间有一个紧密的联系, 换言之它们之间的互信息足够大
I(Z,Y;θ)=∫dzdyp(z,y|θ)logp(z,y|θ)p(z|θ)p(y|θ).(1)
-
但是, 仅仅应用 (1) 通常会导致一个平凡解, 即 Z=X. 而我们通常所希望的 Z 能够将 X 中与 Y 无关的部分的杂质去掉, 换言之我们还需要添加约束
I(X,Z)≤Ic(2)
以保证 Z 不会直接复制 X.
-
(1), (2) 可以转换为一个共同的优化问题:
maxθI(Z,Y;θ)−βI(Z,X;θ).
-
我们首先假设
p(X,Y,Z)=p(Z|X,Y)p(Y|X)p(X)=p(Z|X)p(Y|X)p(Z),(3)
即 Y↔X↔Z.
-
让我们来计算 I(Z,Y),I(X,Z), 注意到
I(Z,Y)=∫dzdyp(z,y)logp(z,y)p(z)p(y)=∫dzdyp(z,y)logp(y|z)p(y),
由于无法知晓 p(y|z), 我们可以采用 [here] 中的方式, 用 q(y|z;θ) 来变分近似, 得到
I(Z,Y)≥∫dydzp(z,y)logq(y|z)+H(Y)≥∫dydzp(z,y)logq(y|z).
-
对于 I(X,Z), 通过 r(z) 来近似 p(z) 可以得到如下的一个上界 (参考 [here]):
I(X,Z)≤∫dxdzp(x,z)logp(z|x)r(z).
-
凭借假设 (3), 可得
I(Z,Y)−βI(X,Z)≥∫dxdydzp(z)p(y|x)p(z|x)logq(y|z;θ)−β∫dxdzp(x)p(z|x)logp(z|x)r(z)=:L.
-
用经验分布 1N∑Nn=1δxn(x)δyn(y) 来近似 p(x,y), p(z|x) 用 encoder 近似, 记为 p(z|x;ϕ), 可得
L≈1NN∑n=1[∫dzp(z|xn;ϕ)logq(yn|z;θ)−βp(z|xn;ϕ)logp(z|xn;ϕ)r(z)].
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2020-11-19 KMM
2020-11-19 MMD