机器学习基本概念1
- 1.1引言
- 机器学习所研究的主要内容
- 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
- 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
- 机器学习是研究关于“学习算法”的学问
- 机器学习所研究的主要内容
- 1.2基本术语
- 学得模型前
- 数据集(data set)
- 一组记录的集合
- 一组记录的集合
- 示例(instance)/样本(sample)
- 数据集中每条关于一个事件或对象的描述的记录
- 数据集中每条关于一个事件或对象的描述的记录
- 属性(attribute)/特征(feature)
- 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
- 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
- 属性值(attribute value)
- 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
- 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
- 属性空间(attribute space)/样本空间(sample space)/输入空间
- 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
- 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
- 坐标向量/特征向量(feature vector)
- 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
- 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
- 维数
- 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
- 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
- 数据集(data set)
- 学得模型中
- 学习(learning)/训练(training)
- 从数据中学得模型的过程
- 从数据中学得模型的过程
- 训练数据(training date)
- 训练过程中使用的数据
- 训练过程中使用的数据
- 训练样本(training sample)
- 训练数据中的每个样本
- 训练数据中的每个样本
- 训练集(training set)
- 训练样本的集合
- 训练样本的集合
- 标记(label)
- 关于示例结果的信息
- 关于示例结果的信息
- 样例(example)
- 拥有标记信息的示例
- 拥有标记信息的示例
- 标记空间(label space)/输出空间
- 所有标记的集合,不是样例的集合
- 所有标记的集合,不是样例的集合
- "二分类"任务,通常其中一个类为正类(positive class),另一个类为反类(negative class);
- 涉及多个类别时,则称为多分类任务
- 学习(learning)/训练(training)
- 学得模型后
- 测试(testing)
- 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
- 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
- 回归
- 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
- 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
- 分类
- 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
- 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
- 聚类(clustering)
- 将训练集中的西瓜分为若干组,每组称为一个簇
- 将训练集中的西瓜分为若干组,每组称为一个簇
- 学习任务
- 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
- 分类和回归常用于监督学习,聚类常用于无监督学习
- 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
- 泛化
- 学得模型适用于新样本的能力
- 学得模型适用于新样本的能力
- 测试(testing)
- 学得模型前
- 1.3假设空间
- 归纳
- 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
- 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
- 演绎
- 从一般到特殊的特化过程,即从基础原理推演出具体状况
- 从一般到特殊的特化过程,即从基础原理推演出具体状况
- 归纳
- 1.4归纳偏好
- 尽可能特殊
- 意义就是适用的情形尽可能少
- 意义就是适用的情形尽可能少
- 尽可能一般
- 意义就是适用的情形尽可能多
- 意义就是适用的情形尽可能多
- 归纳偏好/偏好
- 机器学习算法在学习过程中国对某种类型假设的偏好
- 任何一个有效的机器学习算法必有归纳偏好
- 机器学习算法在学习过程中国对某种类型假设的偏好
- 奥卡姆剃刀
- 是一般性的原则,用来引导算法确立“正确的”偏好
- 一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一样,则选最简单的那个”
- 是一般性的原则,用来引导算法确立“正确的”偏好
- 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否取得较好的性能
- 尽可能特殊