第一章 统计学习方法概论
这本书确实很好,一直都没有坚持学下去,真是可惜,现在每天打卡,学习一章,并做下学习笔记。
已经有人做过类似的笔记了:统计学习笔记(1)——统计学习方法概论
那我就不用求全,只需要总结框架,并把难懂的知识点重点理解。
第一章讲的基本是理论
统计学习:数据、建模、预测,全称统计机器学习;包括监督学习、无监督学习、半监督学习、强化学习。
监督学习:包括分类、标注和回归;训练集、假设空间、评价准则、测试集;三要素:模型、策略和算法。
输入空间、输出空间:输入输出变量用大写X、Y;变量所取的值用小写x,y;
特征空间:特征向量存在的空间,每一维对应一个特征,模型定义在特征空间中。
欧式空间:欧几里德空间,平面几何、立体几何,一般化拓展到任意维度,长度、角度、内积。
标量和矢量:链接
回归问题:
分类问题:
标注问题:是分类的推广,输入是一个观测序列,输出是一个标记序列或者状态序列。
联合概率分布:输入和输出遵循联合概率分布P(X,Y),分布函数,是监督学习的基本假设。
假设空间:映射模型,所有可能模型的集合就是假设空间,确定了学习范围
两种模型:概率模型 条件概率分布 P(Y|X)、非概率模型 决策函数 Y=f(X)。决定映射关系。
小小想法:监督学习很好理解,我都给定训练集了,都有明确的评判标准了,我只需模型出来的结果和训练集的结果无限接近,此时的参数和模型就是我需要的。(会用到代价函数和梯度下降法)
策略:选择最优模型的准则,损失函数:模型一次预测的好坏;风险函数:平均意义下模型预测的好坏
损失函数:或者代价函数,用来度量预测错误程度,,有很多种类:0-1、平方、绝对值、对数。
风险函数:即损失函数的期望,(翻翻书吧,期望怎么求),学习的目标就是选择期望风险最小的模型。 联合分布一定是未知的,所以不能用这个来选择模型。
经验风险:给定训练集,模型在训练集的平均损失为经验风险,,实际中只能根据经验风险来估计期望风险,但同时还必须要使得结构风险最小化,防止训练集过小引起的误差(过拟合)。
大数定理:
极限中心定理:
极大似然估计:等同于经验风险最小化(怎么理解)
最大后验概率估计:等价于结构风险最小化
结构风险最小化:防止过拟合,等价于正则化,,就多了一个正则化项、罚项。权衡经验风险和模型复杂度。
泛函:
算法:求解最优模型的具体的计算方法,求全局最优解问题,一般没有显式的解析解(一步求解)。
学习方法评估:基于损失函数的训练误差 和 模型的测试误差。
泛化能力:学习方法对位置数据的预测能力
过拟合:以为追求对训练数据的预测能力,导致模型复杂度过高(模型参数太多)。
模型选择方法:正则化和交叉验证。
正则化:结构风险最小化策略的实现,加一个正则化项。
向量范数:百度百科
奥卡姆剃刀原理:从贝叶斯估计来看,正则化项对应于模型的先验概率。
交叉验证:数据充足时,可以将数据集分为:训练集、验证集和测试集。但现实是数据往往太少,所以要重复利用数据。分为:简单交叉验证、S折交叉验证、留一交叉验证。
泛化能力:一般通过测试误差来评价,
泛化误差上界:
生成模型:由数据学习联合概率分布,然后求条件概率分布,包括朴素贝叶斯法和隐马尔科夫模型。
判别模型:由数据直接学习决策函数和条件概率分布,包括:k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵,支持向量机,条件随机场
分类准确率的度量:
精确率:
召回率: