泡沫 - 箬笠蓑衣

泡沫

1、LDA topic model

隐含狄利克雷分布简称LDA(Latent Dirichlet allocation)，首先由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出，目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

它是一种主题模型，它可以将文档集中每篇文档的主题按照概率分布的形式给出；

同时是一种无监督学习算法，在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量k即可；

此外LDA的另一个优点则是，对于每一个主题均可找出一些词语来描述它；

LDA可以被认为是一种聚类算法：

主题对应聚类中心，文档对应数据集中的例子。
主题和文档在特征空间中都存在，且特征向量是词频向量。
LDA不是用传统的距离来衡量一个类簇，它使用的是基于文本文档生成的统计模型的函数。

2、MapReduce

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（规约）"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。MapReduce极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（规约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

hadoop

spark

posted on 2017-11-10 09:36 箬笠蓑衣阅读(220) 评论(0) 编辑收藏举报

刷新页面返回顶部

箬笠蓑衣

泡沫

导航

公告