Khemakhem I., Kingma D. P., Monti R. P. and Hyv"{a}rinen A. Variational autoencoders and nonlinear ICA: a unifying framework. In International Conference on Artificial Intelligence and Statistics (AISTATS), 2020.
概
本文讨论identifiability的问题, 即
pθ(x)=p~θ(x)⇒θ=~θ
在何种情况下能够成立, 或者近似成立.
主要内容
假设观测数据x和隐变量z满足联合分布:
pθ∗(x,z)=pθ∗(x|z)pθ∗(z),
因为隐变量是未知的, 所以我们接触到的实际上只有边际分布
pθ∗(x)=∫zpθ∗(x,z)dz.
在实际估计参数θ的时候, 很有可能发生:
pθ(x)=p~θ(x)≈pθ∗(x),θ≠~θ.
即两个不同的联合分布pθ(x,z),p~θ(x,z)但是却对应着同一个边际分布, 这就identifiability的问题.
在经典的VAE框架中, 已经有工作指出, 无监督下, 即仅凭观测数据x, 是无法保证identifiability的.
本文的模型
本文需要用到一些额外的信息u, 考虑如下分布:
pθ(x,z|u)=pf(x|z)pT,λ(z|u),θ=(f,T,λ).
注: x∈Rd,z∈Rn,u∈Rm.
其中,
x=f(z)+ϵ⇒pf(x|z)=pϵ(x−f(z)).
pT,λ(z|u)=∏iQi(zi)Zi(u)exp[k∑j=1Ti,j(zi)λi,j(u)],
即假设先验z|μ满足的是指数族的分布.
套用VAE的框架:
- encoder:
^T,^λ=h(x,u;ϕ),z∼p^T,^λ(z|u).
- decoder:
^x=f(z)+ϵ.
既估计的后验分布为qϕ(z|x,μ), 则ELBO:
EqD(x,u)[Eqϕ(z|x,u)[logpθ(x,z|u)−logqϕ(z|x,u)]].
Identifiability
∼定义: 定义∼等价关系如下:
(f,T,λ)∼(~f,~T,~λ)⇔∃A,c,s.t.T(f−1(x))=A~T(~f−1(x))+c,∀x∈X,
其中A∈Rnk×nk. 若A还是个可逆矩阵, 则
(f,T,λ)∼A(~f,~T,~λ).
显然, 如果
pθ(x|u)=p~θ(x|u)⇒θ∼A~θ,
那么可以说是在线性变换允许范围内是identifiable的.
接下来给出的定理说明了什么时候θ,~θ是∼A-identifiable的.
定理: 在前述定义的模型下, 对于θ=(f,T,λ), 以及任意~θ=(~f,~T,~λ)满足
pθ(x|u)=p~θ(x|u),a.e.,
若一下条件成立, 则θ∼A~θ:
-
若φϵ为pϵ的特征函数(这里即为对于的傅里叶变换), 且φϵ≠0,a.e..
-
f是一个单射.
-
Ti,j几乎处处可微, 且(Tij)j(x)线性独立, 即
k∑jαijTi,j(x)=ci,∀x,⇒ci=0,αij=0,∀j,
对于i=1,…,n均成立.
- 存在不同的点u0,⋯,unk, 使得
L=(λ(u1)−λ(u0),⋯,λ(unk)−λ(u0))∈Rnk×nk.
可逆.
证明流程:
利用条件1, 2证明
pT,λ(f−1(x)|u)volJf−1(x)=p~T,~λ(f−1(x)|u)volJ~f−1(x).
利用条件4证明
T(f−1(x))=A~T(~f−1(x))+c,A=L−T~LT.
利用条件3证明A可逆.
注: 显然条件四一定程度熵说明了为什么无监督不行(因为其相当于λ(u)为常数).
注: 关于引理2的证明我有疑问, 我认为应当这般证明:
令Xi={x∈R,T′i(x)=0}, 取θi≠0,θj=0,j≠i, 则
⟨T′(x),θ⟩=0,∀x∈Xi⇒⟨T(x),θ⟩=const,
由定义知Xi的测度为0.
注: 本文还有一些别的identifiability的讨论, 这里不多赘述.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix