机器学习-1 基本概念
一、机器学习概念
训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集。
测试集(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(features vector):属性的集合,通常用一个向量来表示,附属于一个实例。
注意:这里的特征向量不是指线性代数中的特征向量。
标记(label): 实例类别的标记。用于监督学习。
正例(positive example):例如标记中的“正确”。
反例(negative example):例如标记中的“错误”。
二、分类与回归
分类(classification):目标标记为类别型(不连续)数据(category),例如去、不去,是、否等。
回归(regression):目标标记为连续性数值(continuous numeric value),例如房价、分数等。
三、有监督和无监督
我们在训练模型时,按照训练集中是否包含类别标记,可以分为以下几种:
有监督学习(supervised learning):训练集有类别标记(class label)。
无监督学习(unsupervised learning):训练集无类别标记。
半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集。
四、机器学习步骤
1.把数据拆分为训练集和测试集
2.用训练集来训练算法(模型 model)
3.用学习来的算法(模型)运用在测试集上进行评估,调整参数(parameter tuning)等。
保持学习,否则迟早要被淘汰*(^ 。 ^ )***