监督学习
监督学习问题有两种,分别是分类与回归
分类
分类问题的目标是预测类别标签
分类问题有时可分为二分类(binary classification,在两个类别之间进行区分的一种特殊情况)
和多分类(multiclass classification,在两个以上的类别之间进行区分)。
在二分类问题中,我们通常将其中一个类别称为正类(positive class),另一个类别称为反类(negative class)。
回归
回归任务的目标是预测一个连续值,编程术语叫作浮点数(floating-point number),
数学术语叫作实数(real number)
泛化: 如果一个模型能够对没见过的数据做出准确预测,我们就说它能够从训练集泛化(generalize)到测试集
我们想要找到的是适用于新事物的规律,而在训练集上实现100%精度是对此没有用处
判断一个算法的好坏是在测试集上评估,这是唯一度量
过拟合: 构建一个对现有信息量来说过于复杂的模型,
这被称为过拟合(overfitting)。如果你在拟合模型时过分关注训练集的细节,
得到了一个在训练集上表现很好、但不能泛化到新数据上的模型,那么就存在过拟合。
欠拟合: 选择过于简单的模型被称为欠拟合(underfitting)