机器学习的基本术语

在机器学习中,一组记录的集合被称为数据集,其中每条记录是关于一个事件或对象的描述,称为实例样本,反映了事件或对象在某方面的表现或性质的事项。有时整个数据集亦称一个样本,因为它可看作对样本空间的一个采样。由属性张成的空间被称为属性空间样本空间输入空间。由于空间中的每个点都对应一个坐标向量,因此也把一个示例称为一个特征向量

一般地,令D={x1,x2,...,xm}表示包含m个示例的数据集,每个示例由d个属性描述,则d称为样本xi的维数

从数据中学得模型的过程称为学习训练,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据,其中每个样本称为一个训练样本训练示例训练例,训练样本组成的集合称为训练集。学得模型对应了关于数据的某种潜在的规律,因此亦称假设;这种潜在规律自身。则称为真相或真实,学习过程就是为了找出或逼近真相。学习算法通常有参数需设置,使用不同的参数值或训练数据将产生不同的结果。

若在训练样本中存在包含示例数据的结果信息,则将关于示例结果的信息,称为标记;拥有了标记信息的示例,则称为样例。所有标记的集合称为标记空间输出空间

若欲预测的是离散值,例如“好”“坏”,则将此类学习任务称为分类;若欲预测的是连续值,例如0.94、0.66,此类学习任务称为回归。对只涉及两个类别的二分类任务,通常称其中一个类为正类,另一个类为反类负类;涉及多个类别时,则称为多分类任务。一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射。

学得模型后,使用其进行预测的过程称为测试,被预测的样本称为测试样本测试示例测试例

还可以对数据做聚类,即将训练集中的数据分成若干组,每组称为一个;这些自动形成的簇可能对应一些潜在的概念划分。

根据训练数据是否拥有标记信息,学习任务大致划分为两大类:监督学习无监督学习(或有导师学习无导师学习),分类和回归是前者代表。而聚类则是后者代表。

学得模型适用于新样本的能力,称为泛化能力。具有强泛化能力的模型能很好的适用于整个样本空间。通产假设样本空间中全体样本服从一个未知分布D,获得的每个样本都是独立地从这个分布上采样获得,即独立同分布。一般而言,训练样本越多,得到的关于D的信息越多,就越有可能通过学习获得具有强泛化能力的模型。

posted @ 2021-09-06 21:45  如心幻雨  阅读(629)  评论(1编辑  收藏  举报