随笔分类 - 概率图模型
摘要:浅谈KL散度 一、第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(information gain)。 KL散度是两个概率分布P和Q差别的非
阅读全文
摘要:看这个模型很久了,可能一直深入的不够,现把自己的一点愚见不断的贴上来,一起交流,共同进步。 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型。其大概的意思是说非参数模型的大小可以随着模型内数据的增大或减小而自适应模型的变化,可以根据数据的多少选择参数来确定模型(这一定义的直观解释参考PRML figure 2.5)。正如天下没有免费的午餐一样,非参数模型也需要假设参数的,跟以往参数模型...
阅读全文
摘要:变分对于普通的函数f(x),我们可以认为f是一个关于x的一个实数算子,其作用是将实数x映射到实数f(x)。那么类比这种模式,假设存在函数算子F,它是关于f(x)的函数算子,可以将f(x)映射成实数F(f(x)) 。对于f(x)我们是通过改变x来求出f(x)的极值,而在变分中这个x会被替换成一个函数y(x),我们通过改变x来改变y(x),最后使得F(y(x))求得极值。变分:指的是泛函的变分。打个比...
阅读全文
摘要:EM算法简述 EM算法是一种迭代算法,主要用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步完成: E步,求期望 M步,求极大。 EM算法的引入 如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法或贝叶斯估计法估计模型参数,但是当模型中含有隐
阅读全文
摘要:LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。它是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出;同时是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可;此外LDA的另一个优点则是,对于每一个主题均可找出一些词语...
阅读全文