随笔分类 - 机器(深度)学习 / NLP / 主题模型
潜在狄利克雷分布模型(LDA)原理
摘要:理解 在我们阅读一篇文章的时候,需要明确文章的类别(体育类、新闻类)、内容以及中心思想。通常情况下,一篇文章可能包含多个主题,比如在介绍一座城市的时候,可能会从历史、经济、政治、教育、交通等多个方面做介绍。LDA 正是一种自动分析每篇文档,统计文档中的词语,根据统计的信息判断文档包含哪些主题以及各个
阅读全文
狄利克雷分布(Dirichlet distribution)
摘要:历史 相关概念 概率密度函数: 概念 狄利克雷分布(Dirichlet Distribution)是概率统计学中的一个概率分布,通常用于描述多维度的随机变量。 通俗点,当我们谈论多维度的随机变量时,我们指的是一个包含多个随机事件或可能性的情况。每个维度代表一个不同的事件或可能性,而整个多维度空间表示
阅读全文