机器学习

什么是机器学习?

  第一个机器学习的定义来自于Arthur Samuel,他将机器学习定义为:“在进行特定的编程的情况下,给与计算机学习能力的领域”。他编写了一个西洋棋程序,使计算机自己跟自己下棋,通过这些练习,计算机获得了无比丰富的经验。另外一个年代近一点的定义,由来自卡内基梅隆大学的Tom Mitchell提出,“一个程序被认为能从经验 E 中学习,解决 任务 T ,达到性能度量值 P ,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 的时候性能有所提升。”

监督学习

  首先用一个例子来介绍什么使监督学习,例如预测房价:

  一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据,当把这些数据画出来,看起来是这个样子:“横轴表示房子的面积,单位使平方英尺,纵轴表示的是房价,单位是千/美元”,基于这些数据,假设你有一个朋友,它拥有一套750平方英尺的房子,他想将房子卖掉,他想知道房子能买多少钱。

 

 

   在这组数据中,我们拟合一条直线,根据这条直线我们可以推算出这套房子可能卖$150000,如果我们用二次方程的曲线来拟合,我们可以推算出,这套房子可能卖接近$200000。稍后,我们将讨论如何选择学习算法,让你的朋友将房子的价格买的更合理。可以看出,监督学习就是我们给学习算法一个数据集,这些数据集由“正确答案”组成。在房价的例子中,我们给出了数据集中每个样本的正确价格,即它们的实售价,然后运用学习算法,算出更多的正确答案。

  上述的例子中是一个回归问题,一般房子的价格会记到美分,所以房子的价格实际上是一系列离散值,但我们通常又会将房价看成是一个标量,所以又把它看成是一个连续值,所以回归这个词的意思就是我们试着推测出这一系列连续值的属性。

  我们在看另外一个监督学习的例子,假设你想通过查看病例来推测乳腺癌的良性与否,让我们来看这样一组数据:“在这个数据集中,横轴表示肿瘤的大小,纵轴表示的是 ‘ 是(1)或不是(0)’ 恶性肿瘤”:

  现在有5个良性肿瘤样本,在 1 的位置有5个恶性肿瘤的样本,现在我们有一个朋友很不幸检查出乳腺肿瘤,那么机器学习的问题就在于估算这个肿瘤是良性的还是恶性的。

  上述问题是一个分类问题,分类指的是我们尝试着推测出离散的输出值。

  上述的回归问题和分类问题就是监督学习的内容

无监督学习

   

 

   如上图所示,在监督学习中的数据集,我们可以清楚的知道每条数据的标签,不同于监督学习的数据,在无监督学习中没有任何的标签或者有着相同的标签。而无监督学习就是将这些数据分成几个不同的簇,所以又叫聚类算法。

 

 

  例如有一个DNA微观数据的例子。其基本思想是输入一组不同个体,对其中的每个个体,你要分析出它们之中是否有一个特定的基因已经表达。技术上你要分析多少特定基因已经表达。所以这些颜色“红、绿、灰 ” 等等,这些颜色展示了相应的程度,机器学习要做的就是实用一个聚类算法,把个体聚类到不同的类或不同类型的人......

  以上监督学习和无监督学习都属于机器学习的内容,欢迎指正和批评!!!

 

  

posted @ 2020-11-07 12:30  胡~萝~卜  阅读(1248)  评论(0编辑  收藏  举报