摘要:1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向...
阅读全文
随笔分类 - 文本挖掘
摘要:在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高。另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。信息增益(IG)对于一个系统,其信息熵为\(H(S)=-\sum_{i}^{C}P_i...
阅读全文
摘要:集合模型向量空间模型局部敏感哈希minhashsimhash主题模型参考相似性计算常常是聚类分析、数据去重、信息检索以及推荐系统的一个基础工具,这里列举了一些常用的特征提取和相似性计算方法。集合模型基于集合模型的相似度计算可以先使用所谓k-Shingling的办法,对一个句子或者文档做切片,对于中文...
阅读全文
摘要:随着Web2.0技术的出现和发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。例如,下面这两个短文本评论:(1)“比较了多个智能手机后选择了8150,性价比还可以。另外,就是考虑到它是3...
阅读全文
摘要:这篇要讨论的可不是哲学议题,而是希望以一个“数学工具”的角度来看隐马可夫模型(Hidden Markov Model, HMM)是什么,它的背后假设、长处与限制,以理解这样的工具可以拿来做什么用,而不是只与特定的应用绑在一起。隐马可夫模型?隐藏的马可夫模型?隐马可夫模型是机器学习(Machine L...
阅读全文
摘要:1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 ...
阅读全文
摘要:Naive Bayes (朴素贝叶斯) 属于监督学习算法, 它通过计算测试样本在训练样本各个分类中的概率来确定测试样本所属分类, 取最大概率为其所属分类.优点在数据较少的情况下仍然有效,可以处理多类别问题缺点对输入数据的准备方式较为敏感适用数据类型标称型基础概念1. 条件概率P(A|B)表示事件B已...
阅读全文
摘要:分类体系分类:给定一个对象,从一个事先定义好的分类体系中挑出一个或多个最适合该对象的类别。文本分类(TC, Text Categorization):在给定的分类体系下,根据文本内容自动的确定文本关联的类别。从数学角度看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是...
阅读全文