机器学习笔记-----01绪论

1.1 引言

生活中，我们经常会运用经验做出一些预判，比如小时候看见蚂蚁搬家就会推测即将下雨，晚上星空璀璨的话第二天一般都会阳光普照......这些都是我们人类利用自己的经验来完成的，那么这份工作计算机可以做吗？

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，且在计算机系统中，“经验”通常是以“数据”的形式存在的。

机器学习的主要内容，是关于在计算机上从数据中产生“模型（model）”的算法，即学习算法（learning algorithm）。

PS：如果说计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究“关于算法”的学问。

学习算法的作用：1.基于提供的经验数据产生模型；

2.面对新情况时，模型可提供相应的判断。

模型：泛指从数据中学得的结果。

学习器：学习算法在给定数据和参数空间上的实例化。

1997年，Mitchell给出了一个更形象化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

1.2 基本术语

数据集（data set）：数据记录的集合

示例（instance）/样本（sample）:数据集中的每条记录，即关于一个事件或对象的描述（有时整个数据集也称为一个“样本”）

特征向量（feature vector）：将属性作为坐标轴，通过属性值可以在N维空间中找到自己的坐标位置，由于空间中的每个点对应了一个坐标向量，故也将一个示例称为一个特征向量。

属性（attribute）/特征（feature）:反映事件或对象在某方面的表现或性质的事项

属性值（attribute value）：属性上的取值

属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间

学习（learning）/训练（training）：从数据中心学得模型的过程

训练数据（training data）：训练过程中使用的数据

训练样本（training sample）:训练过程中的每个样本

训练集（training set）：训练样本组成的集合

假设（hypothesis）：学得模型对应了关于数据的某种潜在的规律

真相/真实（ground-truth）：潜在规律自身

分类（classification）：预测的是离散值

回归（regression）:预测的是连续值

“二分类”（binary classification）：只涉及两个类别的任务（正类（positive class）+反类（negative class））

“多分类”（multi-class classification）：涉及多个类别的任务

测试（testing）：学得模型后，使用其进行预测的过程

测试样本/测试示例/测试例

根据训练数据是否拥有标记信息，学习任务大致可以划分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。

泛化（generalization）能力：学得模型适用于新样本的能力

1.3 假设空间

归纳（induction）与演绎（deduction）是科学推理的两大基本手段

归纳是从特殊到一般的“泛化”（generalization）过程，即从具体的事实归结出一般性规律；演绎是从一般到特殊的“特化”（specialization）过程，即从基础原理推演出具体状况。

学习过程看作一个在所有假设组成的空间中进行搜素的过程，搜索目标是找到与训练集“匹配”的假设。

假设空间：机器学习中可能的函数构成的空间称为“假设空间”

版本空间：一个与训练集一致的“假设集合”

1.4 归纳偏好

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好

“奥克姆剃刀”原则：“若有多个假设和观察一致，则选最简单的那个”

注意：奥克姆剃刀并非唯一可行的原则；奥克姆剃刀本身存在不同的诠释

“没有免费的午餐”定理（NFL定理）：总误差与学习算法无关

注意：脱离具体问题，空泛的谈论“什么学习算法更好”，毫无意义。

*难点分析

假设空间的规模问题

1. 某一属性值无论取什么都合适，我们用通配符“*”来表示。

2. 世界上没有，我们用“∅”来表示。

书中例子为西瓜，为判断西瓜的好坏，其属性有三种，即：色泽、根蒂、敲声。

这三种属性分别有3、3、3种可能取值，但假设空间的规模却是4×4×4+1=65。

这是因为，在假设空间中，属性的“无论取什么属性值都合适”也是一种属性值，而不是作为单一属性的3种可能取值的集合存在。

因为假设空间是机器学习中可能的函数构成的空间，“无论取什么属性值都合适”意味着这个函数与这一属性无关。

例如，如果西瓜的三个属性取值都是“无论取什么属性值都合适”，那么无论什么瓜，都是好瓜。而不是3×3×3=27个种类的瓜的集合，并不需要依次判断，需要的判断仅仅是——它是瓜。

所以其假设空间为：

{青绿，乌黑，浅白，*}×{蜷缩，稍蜷，硬挺，*}×{浊响，清脆，沉闷，*}+1（没有“好瓜”的定义）=65

posted @ 2019-09-09 11:27 凝宝爱火锅阅读(283) 评论(0) 收藏举报

刷新页面返回顶部

卓凝