Xu Y., Zhao S., Song J., Stewart R. and Ermon S. A theory of usable information under computational constraints. International Conference on Learning Representations (ICLR), 2020.
概
本文介绍了一种受约束的互信息, 相较于之前的香农互信息, 这种定义方式更加符合直觉.
符号说明
- X, 定义在样本空间 X 之上的随机变量;
- Y, 定义在样本空间 Y 之上的随机变量;
- P(X),P(Y) 定义在 X,Y 之上的概率分布;
- f:X∪{∅}→P(Y), 给定 x∈X∪{∅}, f 将其映射为 Y 上的一个概率分布. 注意, 在下文中我们使用 f[⋅] 而非 f(⋅) 表示用于和一般的映射进行区分.
Motivation
这部分内容借鉴 here 以便于说明.

-
如上图所示, 假设有这样一个任务, 给定一个图片, 预测其标签. 上图中, 左边是普通的图片 X, 右边是通过 RSA 机制进行加密过后的图片 t(X). 由于 RSA 是一种双射, 故在原先的香农的互信息的体系之下, 有
I(X,t(X))=H(X)−H(X|t(X))=H(X).
即二者具有相同的信息量. 因此,
I(X;Y)=I(t(X);Y),
即凡是通过明文能够预测出的标签, 皆可通过右图预测.
-
显然, 咋看之下, 这个结论是相当离谱的, 起码对于人类而言, 通过左图预测其标签 ('熊猫') 比起右图而言要容易很多. 这背后的原因是, 香农互信息的前提是观测者具有无穷的计算能力, 显然对于一般人, 一般机器而言, 这是过于强的假设了. 也正因如此, 在机器学习领域, 应用香农互信息往往会产生一些反直觉的结论:
- 按照香农互信息的理论, 经过网络提取后的特征 g(X) 必定满足:
I(g(X);Y)≤I(X;Y),
但是在实际中, 对于分类器而言, 基于 g(X) 要比 X 更容易去预测 Y;
- 在因果学习中, 倘若 X→Y, 那么通过 h(X) 预测 Y 是容易的, 反之则不是那么容易. 这和香农互信息的对称性质也是不一致的 (存疑?).
-
这一切的原因, 正是香农互信息并没有考虑到绝大部分观测者的观测('计算')能力是有限的, 尽管加密后的图片并没有损失信息, 但是它大大增加了观测的复杂度.
-
首先, 我们对观测者的观测能力进行限制, 下为 Predictive Family 的定义: 令 Ω={f:X∪{∅}→P(Y)}, 则称 V⊂Ω 为一 predictive family 若
∀f∈V,∀P∈range(f),∃f′∈V,s.t.∀x∈X,f′[x]=P,f′[∅]=P(1)
成立. 注意到, 条件 (1) 允许观测者忽视给定的额外的信息, 直接给出预测 (虽然感觉很奇怪, 但是细想起来是相当一般的假设).
-
接下来, 我们定义 Predictive conditional V-entropy: 假设 X,Y 为两个随机变量, 则 predictive conditional V-entropy 定义为:
HV(Y|X)=inff∈VEx,y∼X,Y[−logf[x](y)],HV(Y):=HV(Y|∅)=inff∈VEy∼Y[−logf[∅](y)].
这两个定义其实和香农信息论中的 条件熵 和 信息熵 相对应.
-
于是我们可以模仿香农互信息:
I(X;Y)=H(Y)−H(Y|X)
来定义 V-information:
IV(X→Y)=HV(Y|∅)−HV(Y|X),
注意到, 这里我们使用 X→Y 是由于 V-information 是非对称的 (但是更符合直觉的).
Special Cases
让我们首先观察几个特例, 以便更好地理解 V-information.
Shannon entropy
V=Ω 时, HV=Ω(Y) 退化为普通的信息熵, HV=Ω(Y|X) 退化为普通的条件熵, IV=Ω(X→Y) 退化为普通的互信息.
proof:
HV(Y|X)=inff∈VEx,y∼X,Y[−logf[x](y)]=inff∈VEx,y∼X,Y[logP(y|x)f[x](y)P(y|x)]=H(Y|X)+inff∈VEx∼X[KL(PY|x∥f[x])]≥H(Y|X).
Mean absolute deviation
令 Y=Rd, V={f:{∅}→Pμ|μ∈Rd}, 其中 Pμ 的密度函数形如:
1Ze−∥y−μ∥2,Z=∫e−∥y−μ∥2dy.
则随机变量 Y 的 V-entropy 等价于它的 mean absolute deviation.
proof:
HV(Y)=inff∈VEy∼Y[−logf[∅](y)]=infμ∈VEy∼Y[−log1Ze−∥y−μ∥2]=infμ∈VEy∼Y[∥y−μ∥2]+logZ?=Ey∼Y[∥y−E[Y]∥2]+logZ
注: ? 的地方证明不过去吧. 不晓得是不是作者笔误了.
令 Y=Rd, V={f:{∅}→N(μ,Σ)|μ∈Rd,Σ=1/2Id×d}, 则随机变量 Y 的 V-entropy 等价于 12tr(Cov(Y)).
proof:
HV(Y)=inff∈VEy∼Y[−logf[∅](y)]=infμ∈VEy∼Y[−log1Ze−∥y−μ∥22]=infμ∈VEy∼Y[∥y−μ∥22]+logZ=Ey∼Y[∥y−E[Y]∥22]+logZ=12tr(Cov(Y,Y))+logZ.
Maximum Shannon entropy
令 V={f:{∅}→Qt,θ,θ∈Θ}, 其中 Qt,θ 是一指数族分布, 参数为 Θ, t:Y→Rd 为充分统计量. 令 μY:=E[t(Y)], 则 Y 的 V-entropy 为所有具有相同期望 E[t(^Y)]=μY 的随便变量中的最大 Shannon entropy.
proof:
指数族分布形如 (见 here):
fθ(x)=exp(θTt(y)−A(θ)+C(y)),
则
HV(Y)=inff∈VEy∼Y[−logf[∅](y)]=infθ∈ΘEy∼Y[−logexp(θTt(y)−A(θ))]=−supθ∈ΘEy∼Y[θTt(y)−A(θ)]=−supθ∈Θ{θTEy∼Y[t(y)]−A(θ)}=−A∗(Ey∼Y[t(y)])=H(Pμ),
其中 Pμ 为:
Pμ=argmaxEy∼P[t(y)]=μYH(P).
Determination
令 Y=Rd, X 为任意的向量空间, 且
V={f:x→N(ϕ(x),Σ),x∈X;∅→N(μ,Σ)|μ∈Rd,Σ=1/2Id×d,ϕ∈Φ},
其中 Φ 为一组线性映射. 则 V-information IV(X→Y) 等价于线性回归中 (未标准化的) determination R2⋅tr(Cov(Y)) 的最大系数.
proof:
IV(X→Y)=HV(Y)−HV(Y|X)=infμ∈RdEx,y∼X,Y[∥y−μ∥22]−infϕ∈ΦEx,y∼X,Y[∥y−ϕ(x)∥22]=tr(Cov(Y))(1−infϕ∈ΦEx,y∼X,Y[∥y−ϕ(x)∥22]tr(Cov(Y)))=tr(Cov(Y))⋅R2.
其它性质
Monotonicity
若 V⊂U, 则
HV(Y)≥HU(Y),HV(Y|X)≥HU(Y|X).
proof:
显然.
Non-Negativity
IV(X→Y)≥0.
proof:
HV(Y)=inff∈VEy∼Y[−logf[∅](y)]=inff∈VEx,y∼X,Y[−logf[∅](y)]=inff∈V∅Ex,y∼X,Y[−logf[∅](y)]=inff∈V∅Ex,y∼X,Y[−logf[x](y)]≥inff∈VEx,y∼X,Y[−logf[x](y)]=HV(Y|X).
其中 V∅:={f∈V|f(x)=f(∅),∀x∈X}.
Independence
若 X⊥⊥Y, 则
IV(X→Y)=IV(Y→X)=0.
proof:
只需证明:
HV(Y)≤HV(Y|X).
HV(Y|X)=inff∈VEx,y∼X,Y[−logf[x](y)]=inff∈VEx∼XEy∼Y[−logf[x](y)]≥Ex∼Xinff∈VEy∼Y[−logf[x](y)]=Ex∼Xinff∈V∅Ey∼Y[−logf[x](y)]=inff∈V∅Ey∼Y[−logf[∅](y)]≥inff∈VEy∼Y[−logf[∅](y)]=HV(Y).
其中 V∅:={f∈V|f(x)=f(∅),∀x∈X}.
注: 关于 V-information 的 PAC 界请回看原文.
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
2022-04-03 Feedforward Networks Training Speed Enhancement by Optimal Initialization of the Synaptic Coefficients
2022-04-03 Towards the Memorization Effect of Neural Networks in Adversarial Training
2021-04-03 Direct and Indirect Effects