高级统计 | Tricks & Review
打算写一个综合性比较强的文章。
全文分为六个章节:基本概念,回归,分类,模型选择,评价指标,无监督学习。
基本概念
1 基本概念
线性代数的知识十分有意义。
在此假定已知矩阵的加减乘运算。
1.1 矩阵的初等变换
初等变换专门设计用来执行某种操作,如行(列)交换、行(列)倍乘,或者将一个行(列)的倍数加到另一个行(列)上。
任何可逆矩阵都可以分解成初等变换矩阵的乘积,如
1.2 矩阵求逆
假定我们要求可逆矩阵
当然,你也可以写成
1.3 特征根
一个矩阵就是一个线性变换,这个线性变换对一些向量不改变方向,只是起到了拉伸作用,这些被称为特征向量:
从中衍生了特征根,特征多项式等概念。
例如有一个
1.4 相似变换
相似变换是同一个线性变换在不同基下的表达方式:
任何特征向量线性无关的矩阵都可以相似对角化(充要条件)。特征值为零意味着矩阵是奇异的,即它不是满秩的,因此它不可逆。但这并不妨碍它可以进行相似对角化,关键是是否有足够数量的线性无关的特征向量。
当一个方阵
将
实对称矩阵必能相似对角化。
概率论的定义也明确一下。
在此假定已知分布函数,密度函数,期望方差。
1.5 似然与后验概率
似然的意思是把现实中某次试验看到的,观测到的数据认为就是客观事实。一个骰子骰了六次有三次是一点,那么根据最大似然,一点的概率就是二分之一。
后验概率是根据贝叶斯公式得到的概率。
1.6 假设检验,置信区间
统计显著指的是一个结果不太可能仅由随机变异所导致,比如两个变量相关性高就是统计显著的一种表现。
当我们要证明一个事物
置信区间基于样本统计量构建,如果我们不断重复抽样过程,那么其中的
第一类错误是发生在
1.7 z 分布,t 分布,F 分布
值是这些分布的密度函数两侧 (单侧) 曲线下方的面积, 值, 值, 值是对应的密度函数的某个横坐标, 例如 表示的是右侧曲线(从 到 )下方的面积为 那个点的横坐标.
回归
2 回归
2.1 线性回归
规定
规定
线性回归也可以用于定性分类, 这时引入哑变量 (有点像独热编码). 若某个定性变量有
除了
在加入交互项时注意实验分层原则: 如果交互项的
一旦设计高次项, 不可避免地出现高维灾难问题: 图越来越稀疏, 点难以被分类.
线性回归也可以用
2.2 多项式回归
除了
线性回归和多项式回归置入 Sigmoid 函数
2.3 基函数
基函数是一种广义写法
基函数主要是用来描述回归样条的.
2.4 样条函数
分段多项式拟合曲线会在结点处不连续, 甚至有时趋近无穷, 这不好. 为了解决这一点, 添加截断幂这种基函数
比如一个以原点为结点的函数, 左侧是
事实上, 对
如果样条函数的两侧边界是线性函数, 那么称为自然样条.
还有一种光滑样条, 形如
2.5 局部回归
局部回归只用到一个点附近的训练集去拟合模型.
用一个权重
2.6 广义可加模型
广义可加模型的定义是将若干个模型相加组成一个混合模型:
GAM 的优点在于可以对每一个预测变量
GAM 的缺点是"可加", 也就是不考虑可能存在的交互作用.
分类
3 分类
3.1 Logistic 回归
Logistic 回归直接预测分类的概率值, 基本形式为
回归系数通常用极大似然估计.
在使用一个预测变量做 Logistic 回归时, 如果其他预测变量与之有关系, 那么预测模型会存在风险 ("鲨鱼冰淇淋").
3.2 LDA
线性判别分析是 Ronald Fisher 提出来的, 是一种利用贝叶斯线性分类的工具.
LDA 可用于得出分类结果的分布情况. 当
LDA 认为
LDA 也可以用于多个预测变量的情形, 将
LDA 关心的是中心点以及标准差的分布.
3.3 QDA
二次判别分析的柔性水平比线性判别高, 选择 LDA 还是 QDA 无非是方差-偏差权衡问题.
QDA 的判别函数是
3.4 KNN
K 邻近算法指的是考察离当前点最近的 K 个点, 这 K 个点最多属于的集合就作为当前点的集合.
这也是最基本的贝叶斯分类器 (贝叶斯分类器的定义是将点分入
3.5 决策树
决策树既可以用于分类也可以回归, 但更多是分类.
回归决策树通常采用贪心算法, 每一步变化使得
剪枝策略为代价复杂性剪枝
决策树一般在节点处写 "<" 判断, 左侧为 Y, 右侧为 N.
决策树森林常改为装袋法, 随机森林, 提升法.
装袋法就是有放回地 (即自助法) 从样本抽样建立很多决策树, 每一个决策树都预测一个值, 然后求平均或者多数投票得到结果. 这种方法有效是因为观测值均值的方差比单一观测值的方差小.
随机森林也是有放回地抽样建立很多决策树, 但是每棵树的每个分裂点随机选取少量预测变量 (预测变量总数的均方根), 作为可以用来作为分类标准的变量.
提升法也是众多决策树的结合. 学习率
3.6 支持向量机
SVM 寻找到是离两个类的间距最大的那条分界线 (超平面).
支持向量有很好的几何意义, 这里不作过多展开.
超平面的方程是
线性的 SVM 通常称为 SVC. 目标是对于每一个待预测的
松弛化是对
非线性指的是把高次项
考虑到不是支持向量的向量对超平面本身没有贡献, 模型可以写成
如果把点积
SVM 也可以多分类, 有两种策略: OVO (一类对一类) 和 OVA (一类对其余).
OVO 指的是把类别两两组合, 每组都有一个胜者. 最后多数投票决定哪个是最有可能的类.
OVA 指的是把每个类和其余所有类的并集对比, 如果这个类的预测值
模型选择
4 模型选择
4.1 子集选择法
三种方法: 最优子集, 前向 (后向) 选择, 最优模型.
最优子集对于超过 40 的数据量不适用. 这也是高维灾难的表现.
前向选择和后向选择有略微差异, 后向必须满足样本量
最优模型用到的 C_p, AIC, BIC, 修正 R^2 在后面讲.
4.2 压缩法
两种方法: 岭回归, 套索 (LASSO) 回归.
岭回归是二次惩罚项
套索回归是一次惩罚项
4.3 降维法
两种方法: PCA (主成分分析), PLS (偏最小二乘).
PCA 是一种寻找方差最大的方向作为第一主成分, 第二主成分类推. 因为特征值就是拉伸系数, 通过对所有变量的协方差矩阵 (同时是实对称矩阵) 的特征值排序依次找到拉伸最大的方向, 这些方向依次就是数据在其投影方差最大的方向.
PLS 是一种依次寻找与
评价指标
5 评价指标
5.1 误差
训练误差指的是训练集上的误差. 测试误差是测试集的误差.
一般而言, 随着拟合程度提高, 训练误差单调降低 (并不绝对), 测试误差呈现 U 形, 最低点是过拟合的临界点, 比这个点大就过拟合了.
贝叶斯误差也称不可约误差, 专门用于分类器的. 由于贝叶斯分类器总是选择
5.2 残差图,杠杆值
一般的残差图是残差关于预测值的散点图, 如果残差图显示出明显的规律 (比如 U 形), 就说明存在非线性关系. 有时候呈漏斗状, 说明误差项方差非恒定 (即异方差性), 这时可用
离群点是
学生化残差图中, 残差除以了残差的标准差 (即残差标准误), 大多数数据分布在
高杠杆点的
杠杆值
5.3 混淆矩阵,ROC,AUC
混淆矩阵专门用于分类器, 常常是一个 2 x 2 的表格 (也可以 n x n), 横行和纵行分别作为真实值与预测值.
假阳性 (或者叫假正例) 指的是真实值为 False 但预测成了 True (就像假性近视hh), 假阴性 (或者叫假负例) 指的是真实值为 True 但预测成了 False.
召回率 (又称真阳性率) 是真实为 True 中被预测检出了是 True 的比率, 精确率 (又称预测阳性率) 是预测为 True 中真实为 True 的比率, 召回率和精确率是对偶的定义, 精确率和召回率的调和平均数就是 F1 分数.
ROC 曲线的纵坐标是召回率, 横坐标是假阳性率, 越贴近图的左上角越好. 下方面积称为 AUC, AUC 越大同样分类效果越好.
5.4 RSS,RSE,MSE,R2,Cp,AIC,BIC
RSS 是残差平方和,
RSE 是残差标准误,
MSE 称为均方误差,
R^2 是线性解释比例,
C_p 是测试均方误差的无偏估计,
AIC 是赤池信息量准则,
BIC 是贝叶斯信息准则,
在使用不同的评判指标确定预测变量个数时, 通常根据一倍标准差原则, 也就是选择曲线最低点在这些最低点的一倍标准差
5.5 R2, β0 参数修正
由于
一般抽样的时候, 观测值尽可能是阳性的 (特别是阳性率非常低的时候), 但这会导致抽样比例
无监督学习
6 无监督学习
6.1 降维
降维主要就是前面提到的 PCA.
每个主成分的方向都是互相垂直的. 也就是说如果输入特征是二维向量
在 PCA 之前, 记得对变量中心化 (均值调整为 0) 和标准化 (防止测量尺度不同).
数据集的总方差定义为
中心化后第
一般来说, 主成分的个数等于原本维数时才能有 100% 解释比例.
6.2 聚类
常用的聚类方法是 K-means 和系统聚类 (也叫层次聚类).
K-means 顾名思义, 对于每个类计算类中心 (均值), 然后每个点分配到最近的类中, 不断循环.
不难证明取每个变量的类中心会使得类内点之间的总平方和最小.
但是 K-means 容易陷入局部最优, 不同的初始化可能会得到不同的最终结果.
系统聚类主要用自下而上的方法.
对于欧氏度量作为相异度指标, 采用某种策略 (最长距离 / 最短距离 / 类平均 / 重心) 依次对类进行汇合, 最终合并到根结点, 然后用自上而下看情况切割剪枝. 最长距离和类平均法通常效果不错, 而最短距离容易出现拖尾现象, 重心法容易出现倒置现象.
对于相关性度量作为相异度指标, 可能会得出和前面不一样的结果.
最后思考一点小问题吧.
- 机器学习三大方法是什么?
线性回归, 随机森林, 支持向量机.
- 画出训练误差, 测试误差, 贝叶斯误差, 方差, 偏差关系图.
总之贝叶斯误差是一个恒定值, 测试误差是在其上方的 U 形曲线, 训练误差在测试误差下方单调趋近于 0. 方差单调递增, 偏差单调递减趋近于 0.
- 列举常见的惩罚策略.
岭回归, 套索回归, Cp, AIC, BIC, 调整 R2, 光滑样条, 代价复杂性剪枝等等.
- 总结各模型的优缺点.
一共是两类模型, 回归用于定量模型, 分类用于定性模型.
虽然二者时常糅合在一起, 线性回归可以变相用于分类, 逻辑斯蒂回归也可以变相多分类乃至用于随机森林 (但这不重要).
评价一个模型好坏通常从以下角度出发: 测试准确率如何 (和其他模型相比, 对极端数据的预测等等)? 模型复杂度如何 (变量规模, 柔性水平等等)? 模型解释性如何 (计算某一个特定的变量对结果的影响大小, 或者计算模型中某一部分的解释比例等等)?
- 说明何时采用验证集方法, 何时用交叉验证的方法.
训练集数据量大的时候用验证集方法, 交叉验证是因为训练集太小要"均匀"地利用所有数据, 从而衍生出了留一法和 K 折法.
- 想一想 R 语言的写法吧 (笑).
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?