数据挖掘需要什么知识

数据挖掘的基本流程

 1 商业理解:数据挖掘不是我们的目的,我们的目的是更好的帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,在对数据挖掘目标进行定义

2 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述,数据质量验证等,有助于对收集的数据有个初步认知

3 数据准备: 开始收集数据,并对数据进行清洗,数据集成等操作,完成数据挖掘的准备工作

4 模型建立: 选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果

5 模型评估: 对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标

6 上线发布: 模型的作用是从数据中找到金矿,获得的知识需要转化为用户可以使用的方式,呈现的形式可以是一份报告,可以试实现了一个复杂可重复的数据挖掘过程,后续监视与维护

再说一说流程:首先需要了解背景(业务需求,达到目标等),然后根据目的大致查看整个数据集的各个参数及其属性,接着就需要判断各个参数,数值和自己目的的一个关系,如果直观没什么想法,可以使用可视化,与目的影响的东西作比较,得到具有影响目的的一些特征,和一些无关紧要的,大致了解后就需要预处理数据,为后续机器学习建模做基础,预处理(常见的处理方式别人网上说的都比我好自己可以去学习)后面update。。。(白又白)

数据挖掘十大算法

分类算法:C4.5 ,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost

聚类算法: K-Means, EM

关联分析: PageRank

1.C4.5: 是决策树的算法,创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也对不完整的数据进行处理 关于决策树、C4.5算法具体可以查看下面链接(https://www.cnblogs.com/pythonzwd/p/10561566.html )

2.朴素贝叶斯(naive bayes): 朴素贝叶斯是给予概率论的原理,它的思想是对于给出的未知无题要进行分类,需要求解在这个未知物体出现的条件下各个类别出现的概率,找最大概率那个分类,数据更新影响思想

3 SVM:中文叫支持向量机:Support Vector Machine,SVM 在训练中简历了一个超平面的分类模型。

4.KNN: 也叫K最近邻算法,英文是K-Nearest Neighbor.  K近邻就是每个样本都可以用它最接近的K个邻居来戴表,如果一个样本,他的K个最接近的邻居都属于A,那么这个样本也属于A分类

5.Adaboost:  在悬链中简历一个联合分类模型,boost 提升的意思,所以adaboost是个构建分类模型器的提升算法,它可以让多个弱的分类器组成一个强的分类器

6.CART: CART戴表分类和回归树,Classification and Regression Trees.  构建了两棵树,一颗分类树,一个回归树,是一个决策树学习算法

7Apriori 是一个挖掘关联规则(association rules)的算法,通过挖掘频繁顶集(frequent item sets)来解释物品之间的关联关系,被广泛应用于商业挖掘和网络安全领域中,频繁项集是一个指经常出现在一起的物品集合,关联规则按时着两种物品之间可能存在很强的关系

8K-Means: K-Means算法是一个聚类算法, 可以这么理解,最终想把物体划分成K类,假设每个类别里面,都有个‘中心点’,即意见领袖,它是这个类别的核心,现在我又一个新点要归类,这个时候就只要计算与K个中心点的距离,距离那个中心点近,就分成那个类别

9.EM: EM算法也叫最大期望算法,是求参数的最大似然估计的一种算法,原理是这样的:假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B的也就得到A的,可以考虑首先赋予A某个初值,以此得到B的估值,然后从B的估值出发,重新估计A的取值,这个过程一直持续到收敛未知

10.PageRank: 起源于论文的影响力的计算方式,如果一篇论文被引入次数越多,就代表这篇论文的影响力越强,PageRank被Google创造性地应用到了网页权重的计算中,当一个页面链接的页面越多,说明这个页面的‘参考文献’越多,当这个页面被链入的频率越高,说明这个页面的引用次数越高,基于这个原理,我们可以得到网站的权重划分

数据挖掘中的数学原理

1概率论与数理统计

2 线性代数

3 图论

4最优化方法

---------------------------------------------

题外话: 我还在转行学习中,着实需要项目经验,如果有一起kaggle练习项目的,可以的话稍上我,一起学习,感谢!!!

posted @ 2019-03-18 13:12  东西  Views(1372)  Comments(0Edit  收藏  举报