飞鸟各投林

导航

2017年3月30日 #

关于LDA的gibbs采样,为什么可以获得正确的样本?

摘要: 算法里面是随机初始了一个分布,然后进行采样,然后根据每次采样的结果去更新分布,之后接着采样直到收敛。 1.首先明确一下MCMC方法。 当我们面对一个未知或者复杂的分布时,我们经常使用MCMC方法来进行分布采样。而采样的目的是得到这个分布的样本,通过这些样本,我们就能明确出该分布的具体结构。所以MCM 阅读全文

posted @ 2017-03-30 17:13 飞鸟各投林 阅读(972) 评论(0) 推荐(0) 编辑

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?

摘要: 本文参考自:https://www.zhihu.com/question/21692336/answer/19387415 方法一: alpha 是 选择为 50/ k, 其中k是你选择的topic数,beta一般选为0.01吧,,这都是经验值,貌似效果比较好,收敛比较快一点。。有一篇paper, 阅读全文

posted @ 2017-03-30 17:08 飞鸟各投林 阅读(4898) 评论(0) 推荐(0) 编辑

如何确定LDA的主题个数

摘要: 本文参考自:https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题。 当各个topic之间的相似度的最小的时候,就可以算是找到了合适的topic个数。 参考一种基于密度的自适应最优LDA模型选择方法 ,简略过程如下: 选取初始K值 阅读全文

posted @ 2017-03-30 16:55 飞鸟各投林 阅读(4634) 评论(0) 推荐(0) 编辑