优达学城数据分析师纳米学位——P5项目知识点整理机器学习基本术语
了解术语可以使得自己能够更加准确的理解题目并和专业人士进行交流。
下面整理一些机器学习的常用术语,多数来自于周志华老师的《机器学习》
机器学习:Mitchell在1997年给出了一个形式化的定义:假设用P 来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。模型,学习算法,判断
要进行数据学习,先要有数据,
样本:可以是单个样本或是一个数据集
数据集(data set): 记录的集合
示例(example): 关于一个事件或对象的描述的每条记录
区分 样例(example):拥有了标记信息的示例
属性(attribute)/特征(features):反映事件或对象在某方面的表现或性质的事项,例如“色泽”“敲声”“法术强度”
属性值(attribute value): 属性上的取值 例如色泽“青绿”,法术强度“高”
属性空间(attribute space): 属性张成的空间
样本空间/输入空间(sample space):由属性分类生成的多维空间
每个实例x 都是d维样本空间X中的一个向量,x属于X,其中xij是xi在第j个属性上的取值,d称为样本xi的维数
学习(learning)/训练(training): 从数据中学得模型的过程
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
真相/真实(ground-truth):
标记(label): 关于示例结果的信息
分类(classification): 预测的是离散值
回归(regression): 预测的是连续值
聚类(cluster): 将训练集中的样本分为若干组,每一组称为一个簇,这些自动对应的簇可能对应一些潜在的概念划分,例如“深色瓜”“法师”“战士”
正类(positive class)/反类(negative class) : 只涉及两个类别的分类的“二分类”任务时对类别的生成
泛化(generalization): 学得模型适用于新样本的能力
监督学习(supervised learning)/无监督学习(unsupervised learning): 根据训练数据是否拥有标记信息进行的分类,分类和回归是前者的代表,而聚类是后者的代表
假设空间:所有可能取值的组合 例如“色泽”“根蒂”“敲声”分别有3、3、3中取值,面临的假设空间规模大小为4*4*4(取值包含通配符'*')+1(空集)
版本空间(version space): 与训练集一致的“假设集合”
归纳偏好(inductive bias): 机器学习算法在学习过程中对某种类型假设的偏好。当无法判断多个假设中哪一个“更好”,而必须要产生一个模型时,学习算法自身的偏好,“尽可能一般”“根蒂更重要”
奥卡姆剃刀原则:若有多个假设与观察一致,则选最简单的那个