机器学习-1 基本概念

一、机器学习概念

  训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集。

  测试集(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集。

  特征向量(features vector):属性的集合,通常用一个向量来表示,附属于一个实例。

  注意:这里的特征向量不是指线性代数中的特征向量。

  标记(label): 实例类别的标记。用于监督学习。

  正例(positive example):例如标记中的“正确”。

  反例(negative example):例如标记中的“错误”。

 

二、分类与回归

  分类(classification):目标标记为类别型(不连续)数据(category),例如去、不去,是、否等。

  

  回归(regression):目标标记为连续性数值(continuous numeric value),例如房价、分数等。

  

 

三、有监督和无监督

  我们在训练模型时,按照训练集中是否包含类别标记,可以分为以下几种:

  有监督学习(supervised learning):训练集有类别标记(class label)。

  无监督学习(unsupervised learning):训练集无类别标记。

  半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集。

 

四、机器学习步骤

  1.把数据拆分为训练集和测试集

  2.用训练集来训练算法(模型 model)

  3.用学习来的算法(模型)运用在测试集上进行评估,调整参数(parameter tuning)等。

posted @ 2019-01-28 15:32  风间悠香  阅读(273)  评论(0编辑  收藏  举报