理解

在我们阅读一篇文章的时候,需要明确文章的类别(体育类、新闻类)、内容以及中心思想。通常情况下,一篇文章可能包含多个主题,比如在介绍一座城市的时候,可能会从历史、经济、政治、教育、交通等多个方面做介绍。LDA 正是一种自动分析每篇文档,统计文档中的词语,根据统计的信息判断文档包含哪些主题以及各个主题所占比例的模型

定义

隐性狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是一种概率图模型,用于主题建模和文本分析。它的目标是从文本数据中发现潜在的主题结构。LDA 是由David Blei、Andrew Ng和Michael Jordan于2003年提出的,并成为了文本挖掘和自然语言处理领域中非常有影响力的模型之一。

LDA 基于以下核心假设:

  1. 文档由主题混合生成:LDA 假设每个文档是由多个主题混合而成的。文档中的每个词都与一个主题相关。

  2. 主题由单词混合生成:每个主题都可以被看作是一个单词的分布,这些单词与该主题有较高的相关性。

 LDA是常见的主题模型之一,是一类无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

"潜在狄利克雷分布模型"(Latent Dirichlet Allocation,LDA)和 "狄利克雷分布" 是两个截然不同的概念。

  1. 潜在狄利克雷分布模型 (LDA): LDA 是一种主题建模方法,用于分析文本数据中的主题结构。它使用了狄利克雷分布作为模型的一部分,但它的主要目标是发现文本数据中的潜在主题和主题分布。LDA 假设每个文档都是由多个主题混合而成的,每个主题都以一定的概率生成文档中的单词。这个模型被广泛用于文本挖掘、主题建模、文本分类等任务。

  2. 狄利克雷分布 (Dirichlet Distribution): 狄利克雷分布是一种概率分布,通常用于表示多项分布中的参数。它不是一个模型,而是一个概率分布。狄利克雷分布用于描述多项分布中不同类别的权重或概率。它在贝叶斯统计中用作多项分布的共轭先验,以便进行参数估计和推断。

  什么是latent:

   中文是潜在,是LDA 的核心概念,文档中的主题是未知的,它们潜伏在文本数据背后。通过 LDA,我们试图揭示文本数据中的这些潜在主题以及它们的分布,以更好地理解文档的内容和结构。其实就是根据文章反推主题。

 

论文:https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf

这篇论文03年就发布了,那时候我才5岁。感叹前辈们的智慧才学啊。

原理:

 

 

 

 

 

 

 

参考:

https://www.bilibili.com/video/BV1LQ4y1Q7xv/?spm_id_from=333.337.search-card.all.click&vd_source=3b2b7fb671161612d699f578850584a1

 

posted on   黑逍逍  阅读(417)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!



点击右上角即可分享
微信分享提示