《机器学习导论》学习笔记 第一章 绪论

必须先搞清楚机器学习中两个很重要的概念,一个是监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。

这两者的区别就是前者知道了结果的正确值,后者没有这个指导值,也就是说你不知道所谓的正确结果。

wikipedia上这样描述:

监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。

无监督学习与监督学习相比,训练集没有人为标注的结果。下面分别从应用的角度来叙述。

 

监督学习:

   模式识别,这是机器学习最常用的,比如说OCR,每个人的写字习惯都有很大的差别,现在一般就是通过训练来提高准确率,比如你写了一个A,然后告诉机器你写了A,机器从中提取出你的一些特征,下次就知道你写的是什么了,有输入,有输出,有目标量。模式识别也包括人脸识别、语音识别等。监督学习的算法就是回归(连续数据)和分类(离散数据)。

   信用评分,根据你的个人信息和一些历史数据,判断贷款的风险,把风险和客户的个人行为和个人信息联系在一起。通过一些历史数据判断出某个人违约的风险。就像亚马逊上,你买了这本书,那么你买另外一本书的概率有多少,以前买了你这本书的人一般都会买另外一本书。然后推荐给你。垃圾邮件的识别也算。

 

无监督学习:

    现在无监督学习的应用越来越广泛,这块主要是数据挖掘,在如今大数据大时代可以说是恰逢其时啊!我们不知道这么多的数据中隐含着怎么样的信息,机器学习的任务就是把其中有用的提取出来,或者找到这些数据的现实意义。

    无监督的算法主要是聚类。

 

除了这两个以外,还有增强学习和半监督学习等。

机器学习最重要的两个应用就是 数据挖掘(Data Mining)和模式识别(Pattern Recognition)。

posted @ 2014-05-12 20:23  此去经年  阅读(451)  评论(0编辑  收藏  举报