机器学习的基本术语

在机器学习中，一组记录的集合被称为数据集，其中每条记录是关于一个事件或对象的描述，称为实例或样本，反映了事件或对象在某方面的表现或性质的事项。有时整个数据集亦称一个样本，因为它可看作对样本空间的一个采样。由属性张成的空间被称为属性空间、样本空间或输入空间。由于空间中的每个点都对应一个坐标向量，因此也把一个示例称为一个特征向量。

一般地，令D={x1,x2,...,xm}表示包含m个示例的数据集，每个示例由d个属性描述，则d称为样本xi的维数。

从数据中学得模型的过程称为学习或训练，这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据，其中每个样本称为一个训练样本、训练示例或训练例，训练样本组成的集合称为训练集。学得模型对应了关于数据的某种潜在的规律，因此亦称假设；这种潜在规律自身。则称为真相或真实，学习过程就是为了找出或逼近真相。学习算法通常有参数需设置，使用不同的参数值或训练数据将产生不同的结果。

若在训练样本中存在包含示例数据的结果信息，则将关于示例结果的信息，称为标记；拥有了标记信息的示例，则称为样例。所有标记的集合称为标记空间或输出空间。

若欲预测的是离散值，例如“好”“坏”，则将此类学习任务称为分类；若欲预测的是连续值，例如0.94、0.66，此类学习任务称为回归。对只涉及两个类别的二分类任务，通常称其中一个类为正类，另一个类为反类或负类；涉及多个类别时，则称为多分类任务。一般地，预测任务是希望通过对训练集进行学习，建立一个从输入空间X到输出空间Y的映射。

学得模型后，使用其进行预测的过程称为测试，被预测的样本称为测试样本、测试示例或测试例。

还可以对数据做聚类，即将训练集中的数据分成若干组，每组称为一个簇；这些自动形成的簇可能对应一些潜在的概念划分。

根据训练数据是否拥有标记信息，学习任务大致划分为两大类：监督学习和无监督学习（或有导师学习和无导师学习），分类和回归是前者代表。而聚类则是后者代表。

学得模型适用于新样本的能力，称为泛化能力。具有强泛化能力的模型能很好的适用于整个样本空间。通产假设样本空间中全体样本服从一个未知分布D，获得的每个样本都是独立地从这个分布上采样获得，即独立同分布。一般而言，训练样本越多，得到的关于D的信息越多，就越有可能通过学习获得具有强泛化能力的模型。

posted @ 2021-09-06 21:45 如心幻雨阅读(750) 评论(1) 收藏举报

刷新页面返回顶部

机器学习的基本术语

公告