浅谈数据挖掘与机器学习

数据挖掘和机器学习近年来被大多数人所听说,这两个词近年来因为大数据的听上去高大上的词汇,其实在我们的生活中到处存在,往往是计算机知识中融入了数学(统计方面的知识)。

数据挖掘往往和机器学习一起出现在各种地方,要用到数据挖掘的地方必有机器学习,在数据量小的时候,他们可能不会有依赖关系,往往通过人工的处理,就会在小范围的数据量中找到有价值的信息,并做出判断或者预测,但是在现在的社会,大数据时代,每天产生的数据量数以亿计,数不胜数,靠人工是不可能了,这时候就需要计算机去模拟人工,对数据进行分析判断,并作出相应的预测,计算机自己不会分析数据,怎么办,机器学习登场了,我们要让计算机去学习人分析数据,处理数据的方法,然后计算机去运用这些学来的方法去处理数据。机器学习就是计算机学习人处理问题的方法之后自己去解决问题。


一个简单的例子:我们去超市买东西,往往想买的东西会被放在一起,即使他们属于不同的种类,超市好像事先知道我们要买什么东西,把他们都放在了一起。买完泡面的时候想买与香肠,买完馒头的时候想买老干妈,发现他们就在旁边(打个比方),超市怎么知道你买完这个就会买下一个呢?数据挖掘分析,超市根据每位顾客的购买习惯,统计出一个非常大的数据集,根据这些数据分析出用户买完当前的商品下一个会买什么商品,购买下一个商品的几率有多大。


比如你会收到一条理财的信息,告诉你怎么理财才会赚的更多,而你的同学收到一条贷款的信息,告诉他贷款无抵押,各种好。这就是根据你平时网上的的消费情况,浏览情况分析出你比你的同学有钱……微笑


再如某个地方是一个旅游景点,售票处会根据购票人户和每天的游客的游览习惯(时间长短,进入时间等等)分析出接下来景点的观光人数,当预测人数会激增的时候,适当的控制进入景点的人数,避免发生危险。


机器学习首先要让计算机学习处理问题的方法,我们要训练计算机,让他学会这个招数。我们就要用大量的数据对计算机进行训练,进行大量的训练,让计算机减少误差,最终得到我们想要的结果。

机器学习主要分为两种类型:第一种称为有监督学习(预测学习),另一种称为无监督学习(描述学习),第一种有监督学习是给计算机大量从输入可以得到特定的输出的数据,让计算机学会从输入怎么得到输出的,这也是一种训练过程。第二种是只给计算机输入的数据,让计算机发现这些数据的特点与共性。第一种主要可以做预测,而第二种就是简单的发现数据中的隐藏的内容,进而分析出结果。

数据挖掘与机器学习更偏向于算法,好的算法可以精准的分析出结果,同时做到误差很小,但是我们不用太关注算法,大多数的算法已经写好,直接使用即可.


posted @ 2017-11-10 21:29  In_new  阅读(270)  评论(0编辑  收藏  举报