摘要: 文本挖掘可能更侧重于挖掘,跟NLP自然语言处理侧重点不一样,不过其依赖于自然语言处理,我的感觉就相当于计算机视觉依托于图像处理这个方向,大家侧重点不一样。自然语言处理主要流程文本->分句->分词->词性标注->短语分析->句法分析->语义分析->语篇分析->理解分句这个一般有标点符号相隔,这个便于处理。下面主要解决分词问题。分词的解决也就是解决特征提取的问题,我们在图像处理的时候要解决的第一个问题就是特征提取,选择什么样合理的特征。下面说一下分词基本方法:基于词典的方法基于标注的分词基于词典的方法中基于匹配的方法最大匹配算法(MM)具体思路:设定 阅读全文
posted @ 2014-01-17 21:28 越影&逐日而行 阅读(961) 评论(0) 推荐(0) 编辑
摘要: 理解置信度、支持度的定义以及最小置信度和最小支持度。 这几个概念要搞明白。 我们要做的事情就是在数据集中找出所有支持度大于最小支持度,置信度大于最小置信度的关联规则。 关联规则的挖掘所面临的问题就是数据量大,则如何提高算法的效率就是我们主要要解决的问题。 另外一个概念就是频繁项集,支持度大于最小支持度的数据项集就是频繁项集。 由于置信度通过支持度就可以求出,所以我们的关键问题就是如何求支... 阅读全文
posted @ 2014-01-17 11:47 越影&逐日而行 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 下面介绍无监督机器学习算法,与前面分类回归不一样的是,这个不知道目标变量是什么,这个问题解决的是我们从这些样本中,我们能发现什么。 这下面主要讲述了聚类算法,跟数据挖掘中的关联挖掘中的两个主要算法。 K均值算法工作流程,首先随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中。 具体的讲就是为每个点找到最近的质心,并将其分配给该质心所对应的簇,这一步完成之后,每个簇的质心更新为该... 阅读全文
posted @ 2014-01-17 10:25 越影&逐日而行 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 在前面线性回归,线性回归要拟合全部样本,这个是不显示的,因为问题不一定就是线性模型,其中一种可行的方法是将数据集切分成多分易建模的数据,然后利用前面线性回归的方法来建模。如果第一个切分之后的数据还不好拟合的话,那就继续切分。 这就是决策树中一种叫分类回归树CART。这个算法即可以用于分类也可以用于回归。 在这个学习中,介绍了树剪枝算法。 CART算法实现 先看一下之前的树分类 from ... 阅读全文
posted @ 2014-01-17 09:56 越影&逐日而行 阅读(636) 评论(0) 推荐(0) 编辑