统计学习方法概论------《统计学习方法》李航著

统计学习由监督学习，非监督学习，半监督学习和强化学习组成。
监督学习方法主要包括分类、标注与回归问题
回归问题：输入变量和输出变量均为连续变量的预测问题
分类问题：输出变量为有限个离散变量的预测问题
标注问题：输入与输出变量均为变量序列的预测问题
统计学习三要素：模型，策略，算法
损失函数度量模型一次预测的好坏
风险模型度量平均意义下模型预测好坏
泛化误差反应了学习方法的泛化能力
泛化能力是有该方法学到的学习到的模型对位置数据的预测能力
泛化误差就是对学习到的模型的期望风险
泛化误差上界的性质：
（1）它是样本容量的函数，样本容量增加，泛化上界趋向于0
（2）它是假设空间容量的函数，假设空间越容量大，模型越南学，泛化误差上界就越大。
监督学习方法可以分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型
生成方法的特点：
（1）可以还原联合概率分布P(X,Y)
（2）学习收敛速度快
判别方法的特点：
（1）直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测，准确率更高
（2）可以对数据进行各种程度的抽象、定义特征并使用特征，因此可以简化学习问题
分类是监督学习的一个核心问题
评价分类器性能的一般指标是分类精确率
二类分类问题常用的评价指标是精确率和召回率，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作
TP------将正类预测为正类数
FN------将正类预测为负类数
FP------将负类预测为正类数
TN------将负类预测为负类数
精确率定义：P = $\left(\frac{TP}{TP+FP}\right)$
召回率定义：R = $\left(\frac{TP}{TP+FN}\right)$
F₁是精确率和召回率的调和均值
$\left(\frac{2}{ F1 }\right)$ = $\left(\frac{1}{ P }\right)$ + $\left(\frac{1}{ R }\right)$
F₁ = $\left(\frac{2TP}{ 2TP + FP + FN }\right)$
标注常用的统计学习方法有：隐马尔科夫模型，条件随机场
回归模型是表示从输入变量到输出变量之间映射的函数
回归问题的学习等价于函数拟合
回归问题分为学习和预测两个过程。
回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法求解

统计学方法：k近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯蒂回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型、条件随机场。

posted @ 2019-07-10 10:14 Philtell 阅读(153) 评论(0) 收藏举报

刷新页面返回顶部

To be a better man

统计学习方法概论------《统计学习方法》李航著

公告