01 2015 档案
JGibbLDA、GibbsLDA++问题解决
摘要:LDA(Latent Dirichlet Allocation)主题模型是一种用统计进行文本挖掘的方法,它是pLSA(概率潜在语义分析)主题模型基础上加上贝叶斯框架而得到的模型。目前已应用于自然语言处理、计算机视觉、机器学习、信息检索等领域,得到了广泛关注。 LDA模型网上有多个开源代码,...
阅读全文
IKAnalyzer进行中文分词和去停用词
摘要:最近学习主题模型pLSA、LDA,就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug,这里建议IKAnalyzer2012...
阅读全文
因素空间理论在大数据中的应用——汪培庄
摘要:因素空间理论在大数据中的应用 汪培庄 辽宁工程技术大学 (在大数据与数据科学进展主题论坛上的发言稿,经过整理) 个人主页 我国数据与机器智能科学工作者肩负着引领大数据时代浪潮的重任,这是关乎我们能否顺利实现中国梦的大事。无论多困难,我们一定要争取走向前列。作为在信息革命领域里头曾经撕杀过的一名老兵,
阅读全文
大数据研究的若干科学问题——徐宗本
摘要:什么是大数据? 维基百科:大数据是指无法在容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间。 大数据:不能集中存储、难以在可接受时间内分析处理、而数据整体呈现高价值的海量复杂数据集。 大数据一般...
阅读全文
AP聚类算法(Affinity propagation Clustering Algorithm )
摘要:AP聚类算法是基于数据点间的"信息传递"的一种聚类算法。与k-均值算法或k中心点算法不同,AP算法不需要在运行算法之前确定聚类的个数。AP算法寻找的"examplars"即聚类中心点是数据集合中实际存在的点,作为每类的代表。算法描述: 假设$\{ {x_1},{x_2}, \cdots ,{x_...
阅读全文