机器学习基石笔记3——在何时可以使用机器学习(3)
3 Types of Learning
3.1 Learning with Different Output Space Y
从输出空间类型的角度分类机器学习的方法。
1. 二元分类(Binary Classification):输出标签是离散的,二类的。
2. 多元分类(Multiclass Classification):输出标签是离散的,多类的。二元分类是多元分类的特殊情况。
3. 回归(Regression):输出是连续值。
4. 结构学习(Structured Learning):输出是结构。结构学习和分类的区别是结构学习的输出没有明确的类别区分。
小结:
做道题:
解答:
3.2 Learning with Different Data Label yn
从数据标记的角度分类机器学习的方法。
1. 监督学习(Supervised Learning):用有标记的数据训练假设。
2. 非监督学习(Unsupervised Learning):用无标记的数据训练假设。
常见的例子:聚类、密度估计、异常检测等等。
3. 半监督学习(Semi-supervised Learning):由于无标记数据量巨大、标记的成本较大等原因,训练假设的数据一部分(通常是少量的)是有标记的。
常见的例子:人脸识别、药效预测等等。
4. 强化学习(Reinforcement Learning):训练假设的数据的标记是“隐式的”,通常不容易或不能正确表现。通俗地讲,就是输入数据到系统,如果系统的输出与预计的输出不符,“惩罚”系统;如果输出与预计接近或相同,“奖励”系统,从而达到调整系统的目的,优化学习效果。
常见的例子:广告系统(通过用户是否点击广告来调节广告的展示:当前用户点击的广告是当前用户感兴趣的,那么下一次电脑就会多呈现类似主题的广告)等等。
小结:
做道题:
解答:
3.3 Learning with Different Protocol f ⇒ (xn, yn)
从学习策略的角度分类机器学习的方法。
1. 批量学习(Batch Learning):样例一次性批量输入给学习算法,可以被形象的称为填鸭式学习,从而得到一个固定的假设。是最常见的机器学习策略。
2. 在线学习(Online Learning):注意与批量学习的区别:在线学习的假设是不断根据样例进行调整的。
2.1 当前的假设被动地接受一个新样例,然后根据真实值与预测值来重新调整模型参数。
2.2 连续地进行2.1,直到所有的样例完成。及时不断地用样例去修正模型,进行优化。
例子:PLA和强化学习。
在邮件分类上批量学习和在线学习的区别:
3. 主动学习(Active Learning):注意和在线学习的不同。半监督学习的一种。对于不确定的实例,学习算法可以主动询问当前实例的标记,得到反馈后,调整系统,继续学习。
上述3种学习策略的不同:
小结:
做道题:
解答:
3.4 Learning with Different Input Space X
从输入空间的角度分类机器学习的方法。
1. 具体特征(Concrete Features):特征的每一维度都有实际具体的自然含义,经过人工提取,包含人类的智慧。
例子:
2. 原始特征(Raw Features):特征的每一维只有简单的自然含义,需要机器或者人工转换成更具体的含义。
例子:识别手写体,输入只是图片中简单的像素矩阵。
3. 抽象特征(Abstract Features):特征的每一维看似没有自然含义。需要进一步的特征转换、特征抽取和特征构造。
例子:各类评分系统(电影打分等等),给定用户和对象,得到该用户对该对象的打分情况。首先抽取出userid的特征,以及抽取每首歌曲itemid的特征,再用这些特征去学。
学习的难度由大到小:抽象特征>原始特征>具体特征。
原始特征、抽象特征都需要特征工程(Feature Engineering)的再处理。离散特征一般只需要简单选取。
小结:
做道题:
解答:
总结: