统计学习方法概述
1、实现统计学习的方法的步骤如下:
(1)得到一个有限的训练数据集合,假设这些数据是独立同分布的。
(2)确定包含所有可能的模型的假设空间,即学习模型的集合。
(3)确定模型选择的准则,即学习的策略。
(4)实现求解最优模型的算法,即学习的算法。
(5)通过学习方法选择最优模型。
(6)利用学习的最优模型对新数据进行预测和分析。
2、回归、分类和标注问题
回归:输入变量和输出变量均为连续变量的预测问题称为回归问题。
分类:输出变量为有限个离散变量的预测问题称为分类问题。
标注:输入变量和输出变量均为变量序列的预测问题称为标注问题。
3、损失函数与风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
损失函数:在假设空间中选取模型f作为决策函数,对于给定的输入x,由f(x)给出相应的输出y,这个输出的预测值f(x)与真实值y可能一致也可能不一致,用一个损失函数或代价函数来度量预测错误的程度。
损失函数值越小,模型就越好。