统计学习一:3.概论:监督学习分类

全文引用自《统计学习方法》(李航)

监督学习的任务是学习一个模型,使之能够对任意给定的输入,对其相应的输出做出一个好的预测。

根据输入和输出变量的类型,可以将监督学习的预测任务可以分为:

  • 回归问题:输入变量与输出变量均为连续变量
  • 分类问题:输出变量为有限个离散变量的,即分类结果离散可分
  • 标注问题:输入变量与输出变量均为变量序列,即输入与输出均为一个序列,非单个值

1.回归问题

回归(regression)是监督学习的一个重要问题,用于预测的输入变量和输出变量之间的关系,尤其关注于当输入发生变化时,输出随之产生的变化。回归问题的学习等价于函数拟合,即寻找一条函数曲线能够很好地拟合已知数据,而且能够很好地预测未知数据。
按照输入变量的个数,回归问题可以分为一元回归和多元回归;按照输入变量和输出变量之间的关系的类型,即模型的类型,回归问题可以分为线性回归和非线性回归。
回归学习最常用的损失函数是平方损失函数,此时回归问题可以由最著名的最小二乘法(least squarse) 求解。

2.分类问题

分类是监督学习的一个核心问题。若输出变量Y为有限个离散值,预测问题便可称为分类问题。此时,问题的输入变量X可以是离散的,也可以是连续的。而训练生成的分类模型或分类函数也可称为分类器(ckassifier)
评价分类器性能的指标一般是分类准确率,即对于给定的测试数据集,分类器正确分类的样本数和总样本数之比。
对于二分类问题,常用的评价指标是精确率(precision)和召回率(recall) 。通常,以关注的类为正类,其他为负类。分类器在测试集上的预测正确或是不正确,有4种情况,分别记作:
TP-将正类预测为正类
FN-将正类预测为负类
FP-将负类预测为正类
TN-将负类预测为负类
精确率的定义为:

\[P=\frac{TP}{TP+FP} \]

召回率的定义为:

\[R=\frac{TP}{TP+FN} \]

3.标注问题

标注(tagging)是分类问题的一种推广,又是更为复杂的结构预测问题的简单形式。其输入时一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使其能够对观测序列给出标记序列作为预测。

posted @ 2018-08-22 10:38  之语  阅读(1524)  评论(0)    收藏  举报