《机器学习基石》第3节课学习笔记

第3节课  Types of Learning 

  • 本节课主要学到了根据四种不同标准,机器学习有哪些种类,并进行了归纳。在本节课中重点学到了二元分类(上节课有接触到),回归,监督学习,非监督学习等等,属于概念性质的一节课,没有演算,数学推导等等。比较好懂。

1.根据输出空间来分类

主要分为二元分类和多元分类。还涉及到回归问题等等。

(1)二元分类

①引例:之前银行根据用户个人情况判断是否给他发信用卡的例子是一个典型的二元分类(binary classification)问题。也就是说输出只有两个,一般y={-1, +1},-1代表不发信用卡(负类),+1代表发信用卡(正类)。

②信用卡发放、垃圾邮件判别、患者疾病诊断、答案正确性估计等等都属于二元分类。二元分类是机器学习领域非常核心和基本的问题。二元分类有线性模型也有非线性模型,根据实际问题情况,选择不同的模型。

(2)多元分类(Multiclass Classification)问题。

顾名思义,多元分类的输出多于两个,y={1, 2, … , K}, K>2. 一般多元分类的应用有数字识别、图片内容识别等等。

 

(3)回归问题

有另外一种情况,比如训练模型,预测房屋价格、股票收益多少等,这类问题的输出y=R,即范围在整个实数空间,是连续的。这类问题,我们把它叫做回归(Regression)。最简单的线性回归是一种典型的回归模型。

(4)结构化学习

在自然语言处理等领域中,还会用到一种机器学习问题:结构化学习(Structured Learning)。结构化学习的输出空间包含了某种结构在里面,它的一些解法通常是从多分类问题延伸而来的,比较复杂。

总之机器学习按照输出空间划分的话,包括二元分类、多元分类、回归、结构化学习等不同的类型。其中二元分类和回归是最基础、最核心的两个类型。

 

2.根据数据标签(label)情况来分类

(1)有监督学习(supervised learning):训练数据中每个xi 对应一个标签yi。
应用:分类

(2) 无监督学习(unsupervised learning):没有指明每个xi 对应的是什么,即对x没有label。
应用:聚类,密度估计(density estimation), 异常检测。

(3)半监督学习(semi-supervised learning):只有少量标注数据,利用未标注数据。
应用:人脸识别;医药效果检测。

(4) 增强学习(reinforcement learning):通过隐含信息学习,通常无法直接表示什么是正确的,但是可以通过”惩罚“不好的结果,”奖励“好的结果来优化学习效果。
应用:广告系统,扑克、棋类游戏。

总结:机器学习按照数据输出标签yn划分的话,包括监督式学习、非监督式学习、半监督式学习和增强学习等。其中,监督式学习应用最为广泛。

3.根据不同的协议来分类

  • Batch Learning(批量学习)

  • Online Learning(在线学习)

  • Active Learning (主动学习)

(1)batch learning是一种常见的类型。batch learning获得的训练数据D是一批的,即一次性拿到整个D,对其进行学习建模,得到我们最终的机器学习模型。batch learning在实际应用中最为广泛。

(2)online是一种在线学习模型,数据是实时更新的,根据数据一个个进来,同步更新我们的算法。比如在线邮件过滤系统,根据一封一封邮件的内容,根据当前算法判断是否为垃圾邮件,再根据用户反馈,及时更新当前算法。这是一个动态的过程。之前我们介绍的PLA和增强学习都可以使用online模型。

(3)active learning是近些年来新出现的一种机器学习类型,即让机器具备主动问问题的能力,例如手写数字识别,机器自己生成一个数字或者对它不确定的手写字主动提问。active learning优势之一是在获取样本label比较困难的时候,可以节约时间和成本,只对一些重要的label提出需求。

简单总结一下,按照不同的协议,机器学习可以分为batch, online, active。这三种学习类型分别可以类比为:填鸭式,老师教学以及主动问问题。

4.通过输入空间来分类

(1)输入X的第一种类型就是concrete features(离散特征)。比如说硬币分类问题中硬币的尺寸、重量等;比如疾病诊断中的病人信息等具体特征。concrete features对机器学习来说最容易理解和使用。

(2)第二种类型是raw features(原始特征)。比如说手写数字识别中每个数字所在图片的mxn维像素值;比如语音信号的频谱等。raw features一般比较抽象,经常需要人或者机器来转换为其对应的concrete features,这个转换的过程就是Feature Transform。

(3)第三种类型是abstract features(抽象特征)。比如某购物网站做购买预测时,提供给参赛者的是抽象加密过的资料编号或者ID,这些特征X完全是抽象的,没有实际的物理含义。所以对于机器学习来说是比较困难的,需要对特征进行更多的转换和提取。

简单总结一下,根据输入X类型不同,可以分为concetet, raw, abstract。将一些抽象的特征转换为具体的特征,是机器学习过程中非常重要的一个环节。

本节课主要学习了机器学习的类型,包括Out Space、Data Label、Protocol、Input Space四种类型。

posted on 2019-05-18 18:46  独家记忆。  阅读(225)  评论(0编辑  收藏  举报