机器学习-LDA主题模型笔记

LDA常见的应用方向：

　　信息提取和搜索(语义分析)；文档分类/聚类、文章摘要、社区挖掘；基于内容的图像聚类、目标识别(以及其他计算机视觉应用)；生物信息数据的应用;

对于朴素贝叶斯模型来说，可以胜任许多文本分类问题，但无法解决语料中一词多义和多词一义的问题--它更像是词法分析，而非语义分析。如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过增加“主题”的方式，一定程度的解决上述问题：

　　一个词可能被映射到多个主题中，即，一词多义。多个词可能被映射到某个主题的概率很高，即，多词一义。

LDA涉及的主要问题

1）共轭先验分布

2）Dirichlet分布

3）LDA模型

　　Gibbs采样算法学习参数

共轭先验分布

　　由于x为给定样本，P(x)有时被称为“证据”，仅仅是归一化因子，如果不关心P(θ|x)的具体值，只考察θ取何值时后验概率P(θ|x)最大，则可将分母省去。

　　在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

Dirichlet分布

　　在学习Dirichlet分布之前先复习以下二项分布的最大似然估计：

　　投硬币试验中，进行N次独立试验，n次朝上，N-n次朝下。假定朝上的概率为p，使用对数似然函数作为目标函数：

上述过程的理论解释　

　　投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

　　两点分布/二项分布的共轭先验是Beta分布，它具有两个参数α和β，Beta分布形式为

先验概率和后验概率的关系

　　根据似然和先验：

　　计算后验概率：

　　后验概率是参数为(k+α,n-k+β)的Beta分布，即：伯努利分布/二项分布的共轭先验是Beta分布。

　　参数α、β是决定参数θ的参数，即超参数。

　　在后验概率的最终表达式中，参数α、β和k、n-k一起作为参数θ的指数——后验概率的参数为(k+α,n-k+β)。

　　根据这个指数的实践意义：投币过程中，正面朝上的次数，α和β先验性的给出了在没有任何实验的前提下，硬币朝上的概率分配；因此，α和β可被称作“伪计数”。

共轭先验的直接推广

从2到K：二项分布→多项分布，Beta分布→Dirichlet分布

Dirichlet分布

　　复习—Beta分布中的B(α,β)的表示：

　　Dirichlet分布：

Dirichlet分布的期望

根据Beta分布的期望公式：

推广得到：

Dirichlet分布分析

　　α是参数向量，共K个，定义在x₁,x₂…x_K-1维上：

　　x₁+x₂+…+x_K-1+x_K=1

　　x₁,x₂…x_K-1>0

　　定义在(K-1)维的单纯形上，其他区域的概率密度为0

对称Dirichlet分布

　　α=1时，退化为均匀分布

　　α>1时，p₁=p₂=...=p_k的概率增大

　　α<1时，p_i=1,p_¬i=0的概率增大

　　多项分布的共轭分布是Dirichlet分布

　　调参经验传授：做LDA的时候，在条件允许的情况下，α值尽量不要设置太大，这样做的好处是充分考虑样本的因素，而不要过分考虑先验参数的影响。
当然，如果先验给的大，就是更多考虑先验，而不是样本。这需要充分根据实际情况决定，如果说我们认为样本的情况是重要的，就不要加入太大的先验。

LDA的解释

　　1）共有m篇文章，一共涉及了K个主题；

　　2）每篇文章(长度为Nm)都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为α；

　　3）每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为β；

　　4）对于某篇文章中的第n个词，首先从该文章的主题分布中采样一个主题，然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程，直到m篇文章全部完成上述过程。

　　详细解释：此段非常有利于理解LDA主题模型

　　1）字典中共有V个term(不可重复)，这些term出现在具体的文章中，就是word——在具体某文章中的word当然是有可能重复的。

　　2）语料库中共有m篇文档d₁,d₂…d_m；

　　3）对于文档d_i，由N_i个word组成，可重复；

　　4）语料库中共有K个主题T₁，T₂…T_k；

　　5）α和β为先验分布的参数，一般事先给定：如取0.1的对称Dirichlet分布——表示在参数学习结束后，期望每个文档的主题不会十分集中。

　　6）θ是每篇文档的主题分布

　　　　　　对于第i篇文档di的主题分布是θ_i=(θ_i1, θ_i2…,θ_iK)，是长度为K的向量；

　　7）对于第i篇文档d_i，在主题分布θ_i下，可以确定一个具体的主题z_ij=k，k∈[1,K]

　　8）φ_k表示第k个主题的词分布，k∈[1,K]

　　　　　　对于第k个主题T_k的词分布φ_k=(φ_k1, φ_k2… φ_kv)，是长度为v的向量

　　9）由z_ij选择φ_zij，表示由词分布φ_zij确定term，即得到观测值w_ij。

　　10）图中K为主题个数，M为文档总数，N_m是第m个文档的单词总数。β是每个Topic下词的多项分布的Dirichlet先验参数，α是每个文档下Topic的多项分布的Dirichlet先验参数。z_mn是第m个文档中第n个词的主题，w_mn是m个文档中的第n个词。两个隐含变量θ和φ分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维(k为Topic总数)向量，后者是v维向量(v为词典中term总数)

参数的学习

　　给定一个文档集合，w_mn是可以观察到的已知变量，α和β是根据经验给定的先验参数，其他的变量z_mn、θ、φ都是未知的隐含变量，需要根据观察到的变量来学习估计的。根据LDA的图模型，可以写出所有变量的联合分布：