机器学习

     对于我这个初学者而言,内心一直觉得机器学习和模式识别都是数据挖掘的重要方法,但却并不是很清楚这些方法之间的差别。自从跟学长谈过理想聊未来之后,便决心好好的看看这方面的资料,利用今天好好总结一下。

    个人理解的机器学习就是通过计算机来发现数据背后的意义,也就是将那些杂乱无章的数据转化为有用的信息。在现如今大数据时代,机器学习具有愈加广泛的应用,比如改善商业决策、提高生产率、检测疾病、检测疾病、预测天气、人脸识别以及产品推荐等等。

     机器学习按照学习形式可以分为监督学习和无监督学习。监督学习是用户知道目标变量的分类信息,相当于知道在数据中寻找什么,分类和回归都属于监督学习;无监督学习无需用户知道搜寻的目标,只需从算法中得到数据的共同特征,其中数据没有类别信息,聚类和密度估计都属于无监督学习。

     机器学习的主要任务是分类。在采用某个算法进行分类时,首先需要的是算法训练,就是学习如何分类,通过将大量已分类的数据作为训练集训练得到特征和目标变量之间的关系,其中训练集必须确定知道目标变量的值。同时,通过训练数据和测试数据还可以得到机器学习算法的效果。

     机器学习的另一项任务是回归,用来预测数值型数据。它与分类的区别在于分类的目标变量通常是标称型的,而回归的目标便令通常为连续型。

     聚类是将数据集合分为由类似的对象组成的多个类,使得类内之间相似度最高,不同类之间的相似度最小。密度估计是寻找描述数据统计值的过程,与聚类不同的是,密度估计不仅需要将数据划分为离散的组,还需要估计数据域每个分组的相似程度。

 

 

 

 

 

 

 

posted @ 2015-06-23 20:58  yabea  阅读(1463)  评论(0编辑  收藏  举报