Deep Variational Information Bottleneck

Alemi A. A., Fischer I., Dillon J. V. and Murphy K. Deep variational information bottleneck. In International Conference on Learning Representations (ICLR), 2017.

本文介绍了 Information Bottleneck 理论如何用在一般的特征建模上.

本文内容

  • 假设我们拥有数据 X 和目标 Y, 我们希望通过 p(z|x;θ) 来建模隐变量 Z. 自然地, 我们会希望 Z 和我们的目标 Y 之间有一个紧密的联系, 换言之它们之间的互信息足够大

    (1)I(Z,Y;θ)=dzdyp(z,y|θ)logp(z,y|θ)p(z|θ)p(y|θ).

  • 但是, 仅仅应用 (1) 通常会导致一个平凡解, 即 Z=X. 而我们通常所希望的 Z 能够将 X 中与 Y 无关的部分的杂质去掉, 换言之我们还需要添加约束

    (2)I(X,Z)Ic

    以保证 Z 不会直接复制 X.

  • (1), (2) 可以转换为一个共同的优化问题:

    maxθI(Z,Y;θ)βI(Z,X;θ).

  • 我们首先假设

    (3)p(X,Y,Z)=p(Z|X,Y)p(Y|X)p(X)=p(Z|X)p(Y|X)p(Z),

    YXZ.

  • 让我们来计算 I(Z,Y),I(X,Z), 注意到

    I(Z,Y)=dzdyp(z,y)logp(z,y)p(z)p(y)=dzdyp(z,y)logp(y|z)p(y),

    由于无法知晓 p(y|z), 我们可以采用 [here] 中的方式, 用 q(y|z;θ) 来变分近似, 得到

    I(Z,Y)dydzp(z,y)logq(y|z)+H(Y)dydzp(z,y)logq(y|z).

  • 对于 I(X,Z), 通过 r(z) 来近似 p(z) 可以得到如下的一个上界 (参考 [here]):

    I(X,Z)dxdzp(x,z)logp(z|x)r(z).

  • 凭借假设 (3), 可得

    I(Z,Y)βI(X,Z)dxdydzp(z)p(y|x)p(z|x)logq(y|z;θ)βdxdzp(x)p(z|x)logp(z|x)r(z)=:L.

  • 用经验分布 1Nn=1Nδxn(x)δyn(y) 来近似 p(x,y), p(z|x) 用 encoder 近似, 记为 p(z|x;ϕ), 可得

    L1Nn=1N[dzp(z|xn;ϕ)logq(yn|z;θ)βp(z|xn;ϕ)logp(z|xn;ϕ)r(z)].

posted @   馒头and花卷  阅读(340)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2020-11-19 KMM
2020-11-19 MMD
点击右上角即可分享
微信分享提示