A Theory of Usable Information Under Computational Constraints

Xu Y., Zhao S., Song J., Stewart R. and Ermon S. A theory of usable information under computational constraints. International Conference on Learning Representations (ICLR), 2020.

本文介绍了一种受约束的互信息, 相较于之前的香农互信息, 这种定义方式更加符合直觉.

符号说明

  • X, 定义在样本空间 X 之上的随机变量;
  • Y, 定义在样本空间 Y 之上的随机变量;
  • P(X),P(Y) 定义在 X,Y 之上的概率分布;
  • f:X{}P(Y), 给定 xX{}, f 将其映射为 Y 上的一个概率分布. 注意, 在下文中我们使用 f[] 而非 f() 表示用于和一般的映射进行区分.

Motivation

这部分内容借鉴 here 以便于说明.

  • 如上图所示, 假设有这样一个任务, 给定一个图片, 预测其标签. 上图中, 左边是普通的图片 X, 右边是通过 RSA 机制进行加密过后的图片 t(X). 由于 RSA 是一种双射, 故在原先的香农的互信息的体系之下, 有

    I(X,t(X))=H(X)H(X|t(X))=H(X).

    即二者具有相同的信息量. 因此,

    I(X;Y)=I(t(X);Y),

    即凡是通过明文能够预测出的标签, 皆可通过右图预测.

  • 显然, 咋看之下, 这个结论是相当离谱的, 起码对于人类而言, 通过左图预测其标签 ('熊猫') 比起右图而言要容易很多. 这背后的原因是, 香农互信息的前提是观测者具有无穷的计算能力, 显然对于一般人, 一般机器而言, 这是过于强的假设了. 也正因如此, 在机器学习领域, 应用香农互信息往往会产生一些反直觉的结论:

    1. 按照香农互信息的理论, 经过网络提取后的特征 g(X) 必定满足:

      I(g(X);Y)I(X;Y),

      但是在实际中, 对于分类器而言, 基于 g(X) 要比 X 更容易去预测 Y;
    2. 在因果学习中, 倘若 XY, 那么通过 h(X) 预测 Y 是容易的, 反之则不是那么容易. 这和香农互信息的对称性质也是不一致的 (存疑?).
  • 这一切的原因, 正是香农互信息并没有考虑到绝大部分观测者的观测('计算')能力是有限的, 尽管加密后的图片并没有损失信息, 但是它大大增加了观测的复杂度.

V-information

  • 首先, 我们对观测者的观测能力进行限制, 下为 Predictive Family 的定义: 令 Ω={f:X{}P(Y)}, 则称 VΩ 为一 predictive family

    (1)fV,Prange(f),fV,s.t.xX,f[x]=P,f[]=P

    成立. 注意到, 条件 (1) 允许观测者忽视给定的额外的信息, 直接给出预测 (虽然感觉很奇怪, 但是细想起来是相当一般的假设).

  • 接下来, 我们定义 Predictive conditional V-entropy: 假设 X,Y 为两个随机变量, 则 predictive conditional V-entropy 定义为:

    HV(Y|X)=inffVEx,yX,Y[logf[x](y)],HV(Y):=HV(Y|)=inffVEyY[logf[](y)].

    这两个定义其实和香农信息论中的 条件熵 和 信息熵 相对应.

  • 于是我们可以模仿香农互信息:

    I(X;Y)=H(Y)H(Y|X)

    来定义 V-information:

    IV(XY)=HV(Y|)HV(Y|X),

    注意到, 这里我们使用 XY 是由于 V-information 是非对称的 (但是更符合直觉的).

Special Cases

让我们首先观察几个特例, 以便更好地理解 V-information.

Shannon entropy

V=Ω 时, HV=Ω(Y) 退化为普通的信息熵, HV=Ω(Y|X) 退化为普通的条件熵, IV=Ω(XY) 退化为普通的互信息.


proof:

HV(Y|X)=inffVEx,yX,Y[logf[x](y)]=inffVEx,yX,Y[logP(y|x)f[x](y)P(y|x)]=H(Y|X)+inffVExX[KL(PY|xf[x])]H(Y|X).


Mean absolute deviation

Y=Rd, V={f:{}Pμ|μRd}, 其中 Pμ 的密度函数形如:

1Zeyμ2,Z=eyμ2dy.

则随机变量 YV-entropy 等价于它的 mean absolute deviation.


proof:

HV(Y)=inffVEyY[logf[](y)]=infμVEyY[log1Zeyμ2]=infμVEyY[yμ2]+logZ=?EyY[yE[Y]2]+logZ


注: ? 的地方证明不过去吧. 不晓得是不是作者笔误了.

Y=Rd, V={f:{}N(μ,Σ)|μRd,Σ=1/2Id×d}, 则随机变量 YV-entropy 等价于 12tr(Cov(Y)).


proof:

HV(Y)=inffVEyY[logf[](y)]=infμVEyY[log1Zeyμ22]=infμVEyY[yμ22]+logZ=EyY[yE[Y]22]+logZ=12tr(Cov(Y,Y))+logZ.


Maximum Shannon entropy

V={f:{}Qt,θ,θΘ}, 其中 Qt,θ 是一指数族分布, 参数为 Θ, t:YRd 为充分统计量. 令 μY:=E[t(Y)], 则 YV-entropy 为所有具有相同期望 E[t(Y^)]=μY 的随便变量中的最大 Shannon entropy.


proof:

指数族分布形如 (见 here):

fθ(x)=exp(θTt(y)A(θ)+C(y)),

HV(Y)=inffVEyY[logf[](y)]=infθΘEyY[logexp(θTt(y)A(θ))]=supθΘEyY[θTt(y)A(θ)]=supθΘ{θTEyY[t(y)]A(θ)}=A(EyY[t(y)])=H(Pμ),

其中 Pμ 为:

Pμ=argmaxEyP[t(y)]=μYH(P).


Determination

Y=Rd, X 为任意的向量空间, 且

V={f:xN(ϕ(x),Σ),xX;N(μ,Σ)|μRd,Σ=1/2Id×d,ϕΦ},

其中 Φ 为一组线性映射. 则 V-information IV(XY) 等价于线性回归中 (未标准化的) determination R2tr(Cov(Y)) 的最大系数.


proof:

IV(XY)=HV(Y)HV(Y|X)=infμRdEx,yX,Y[yμ22]infϕΦEx,yX,Y[yϕ(x)22]=tr(Cov(Y))(1infϕΦEx,yX,Y[yϕ(x)22]tr(Cov(Y)))=tr(Cov(Y))R2.


其它性质

Monotonicity

VU, 则

HV(Y)HU(Y),HV(Y|X)HU(Y|X).


proof:

显然.


Non-Negativity

IV(XY)0.


proof:

HV(Y)=inffVEyY[logf[](y)]=inffVEx,yX,Y[logf[](y)]=inffVEx,yX,Y[logf[](y)]=inffVEx,yX,Y[logf[x](y)]inffVEx,yX,Y[logf[x](y)]=HV(Y|X).

其中 V:={fV|f(x)=f(),xX}.


Independence

XY, 则

IV(XY)=IV(YX)=0.


proof:

只需证明:

HV(Y)HV(Y|X).

HV(Y|X)=inffVEx,yX,Y[logf[x](y)]=inffVExXEyY[logf[x](y)]ExXinffVEyY[logf[x](y)]=ExXinffVEyY[logf[x](y)]=inffVEyY[logf[](y)]inffVEyY[logf[](y)]=HV(Y).

其中 V:={fV|f(x)=f(),xX}.


: 关于 V-information 的 PAC 界请回看原文.

posted @   馒头and花卷  阅读(122)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
历史上的今天:
2022-04-03 Feedforward Networks Training Speed Enhancement by Optimal Initialization of the Synaptic Coefficients
2022-04-03 Towards the Memorization Effect of Neural Networks in Adversarial Training
2021-04-03 Direct and Indirect Effects
点击右上角即可分享
微信分享提示