特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术

摘要: TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。T... 阅读全文
posted @ 2015-12-05 19:44 不做圣人做神人 阅读(359) 评论(0) 推荐(0) 编辑

SVM 学习心得

摘要: 详细请参考 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多... 阅读全文
posted @ 2015-12-05 16:01 不做圣人做神人 阅读(941) 评论(0) 推荐(0) 编辑

相关性与关联规则

摘要: Apriori算法 用于压缩搜索空间 从而更快的找到频繁项集强关联规则 要满足最小支持度和最小置信度 基于约束的频繁模式挖掘 阅读全文
posted @ 2015-10-06 17:35 不做圣人做神人 阅读(225) 评论(0) 推荐(0) 编辑

数据仓库

摘要: 数据仓库是面向追的 集成的 时变的 非易失性的 OLAP 联机分析处理 目的是为了数据的分析和决策OLTP 包含了大部分日常操作 是关系型数据库的主要任务是联机事务处理饿查询处理 数据立方体是指多维数据模型方体的集合 数据仓库常见的数据模型 :星型模式 雪花模式 事实星座模式典型的OLAP操作 ... 阅读全文
posted @ 2015-10-06 17:31 不做圣人做神人 阅读(133) 评论(0) 推荐(0) 编辑

数据预处理

摘要: 为什么要进行数据的预处理呢?最主要的原因是数据质量无法满足数据挖掘的要求。数据预处理的主要任务包括:数据清洗 数据集成 数据转换 数据归约 数据离散化数据清洗 填补缺失值 对有噪声的数据进行平滑处理 识别并移除数据中的离群点并解决数据不一致性的问题数据集成:解决数据在不同数据源中的格式和表示的不同数... 阅读全文
posted @ 2015-10-06 16:54 不做圣人做神人 阅读(628) 评论(0) 推荐(0) 编辑

数据挖掘-聚类分析

摘要: 聚类分析是一种非监督的学习,分类是一种监督学习,就是用已经知道的类别的训练数据得到一个分类的模型,所以聚类与分类的主要区别在于是否需要预先定义好类别,也就是说聚类分析只是依靠数据本身来确定数据之间的关系的,所以聚类分析有很大的优越性特别是适合处理大量的原始的数据聚类分析方法的性能指标:1.可扩展性,... 阅读全文
posted @ 2015-10-06 16:43 不做圣人做神人 阅读(333) 评论(0) 推荐(0) 编辑

数据挖掘分类--判别式模型 ----支持向量机

摘要: 支持向量机是一种非常流行的监督学习的算法 简称SVM 针对线性和非线性的数据 它是利用一种非线性转换,将原始训练数据映射到高维空间上。目前已经在手写数字识别 对象识别 说话人识别 以及基准时间序列预测检验等方面得到了广泛的应用SVM的目标是寻求一个超平面, 关心的是让离超平面最近的点能够具有最大的间... 阅读全文
posted @ 2015-10-06 15:57 不做圣人做神人 阅读(324) 评论(0) 推荐(0) 编辑

神经网络

摘要: 神经网络也是一种分类的办法 分类器可以分为线性的和非线性的,从模型方面又可以分为两种 ,分别是产生式模型和判别式模型。产生型模型是由数据学习联合概率分布P(X,Y),然后求出条件概率密度P(Y|X)作为预测的模型,即产生式模型 P(Y|X)=P(X,Y)/P(X)模型给定了输入x产生输出Y的生成关系... 阅读全文
posted @ 2015-10-06 15:15 不做圣人做神人 阅读(216) 评论(0) 推荐(0) 编辑

数据挖掘-贝叶斯定理

摘要: 贝叶斯定理是统计学的一种分类的方法最简单的贝叶斯分类方法称为朴素贝叶斯分类的方法朴素贝叶斯法的一个重要条件是即一个属性值对分类的影响独立于其他属性值 也称为类条件独立性p(H|X)=p(X|H)P(H)/P(X) 其中已经知道后者求前者,。即是后验=似然X先验/证据因子朴素贝叶斯方法易于实现 ,而... 阅读全文
posted @ 2015-10-05 15:05 不做圣人做神人 阅读(158) 评论(0) 推荐(0) 编辑

数据挖掘之分类和预测

摘要: 分类用于预测数据对象的离散类别,预测则用于预断 欺诈检测等的方面。具有代表性的分类的方法 :决策树方法 贝叶斯分类方法 神经网络方法 支持向量机方法 关联分类的方法 最后 将讨论提高分类和预测期准确率的一般性的策略分类的过程一般是有两个步骤组成的 第一个步骤是模型建立阶段,目的是描述预先定义的数据类... 阅读全文
posted @ 2015-10-05 13:28 不做圣人做神人 阅读(2592) 评论(0) 推荐(0) 编辑