统计机器学习第一章 概论
一 统计学习方法的一般概念
首先提出了统计学习的定义,研究对象与方法,主讲监督学习。提出统计学习的三要素,模型,策略和算法。
一 统计学习
统计学习的特点
统计学习是关于计算机基于数据构建统计模型并运用模型对数据进行预测和分析的学科,学习的定义“如果一个系统能通过执行某个过程改进它的性能,这就是学习”
统计学习的对象
数据,从数据出发,提取数据特征,抽象处数据模型,发现数据内在知识,又回到对数据的分析和预测中去,统计学习对数据的基本假设:同类数据有一定的统计规律。
统计学习的目的
对数据进行预测和分析
统计学习的方法
监督学习,非监督学习,半监督学习,强化学习。
监督学习的步骤:
1 得到一个有限的训练数据集合
2 确定包含所有可能模型的假设空间,学习模型的集合
3 确定模型选择的准则,学习的策略
4 实现求解最优模型的算法,学习的算法
5 通过学习方法选择最优模型
6 利用得到的模型对新数据进行预测或分析
统计学习的研究
方法,理论以及应用三个方向的研究
统计学习的重要性
海量数据,智能化,系统+计算+信息(统计类别)
二 监督学习
监督学习任务是学习一个模型,使得模型能对任意给定的输入,对其相应的输出做出一个号的预测。
基本概念,输入空间,特征空间,输出空间,样本
三 统计学习三要素
模型:就是所要学习的条件概率分布或决策函数,假设空间包含了所有可能的模型。
策略:损失函数和风险函数,输出输出期望与真实值之间关系。损失函数越小,模型越好。
风险函数或者期望损失, Rexp(f)=EP[L(Y,f(x))]=∫XYL(y,f(x))P(x,y)dxdy ,学习的目的是找到期望损失最小的模型,由于P(x,y)是未知的,期望损失不能直接计算。
经验风险或经验损失 Remp(f)=1/N∑iL(yi,f(xi)),大数定理,当N无限大的时候,这两个函数趋近
结构风险最小化,加上正则性。
算法:求解最优模型
四 模型评估与选择
训练误差与测试误差,
五 正则化与交叉验证
正则化形式,
min 1/N∑iL(yi,f(xi))+λJ(f), 第一项为经验风险,第二项为正则项。表明选择经验风险和模型复杂度同时较小的模型
六 泛化误差
Rexp(f)=EP[L(Y,f(x))]=∫XYL(y,f(x))P(x,y)dxdy 泛化误差就是学习到模型的期望风险
泛化误差上届,霍夫丁不等式
七 生成模型与判别模型
生成模型,学习P(X,Y),再计算P(Y|X), 朴素贝叶斯
判别模型,直接学习P(Y|X)或者决策函数f(x), 感知机,决策树等
八 分类问题
TP 正类预测正类
FN 正类预测负类
FP 负类预测正类
TN 负类预测负类
准确率 TP/(TP+FP)
召回率 TP/(TP+FN)
posted on 2019-01-21 15:24 lancet1105 阅读(169) 评论(0) 编辑 收藏 举报