机器学习-简单总结
现在回去看看发现课程内容除去大量公式推导,基本上没有啥东西
概述
分类:有监督、无监督、半监督及强化学习
监督学习:数据有输入和标记。回归问题、分类问题、序列标注问题。
生成式模型:根据概率预测
判别式模型:直接学习决策函数
极大似然估计(MLE):直接训练集的各种样本的概率乘起来,最大化
最大后验估计(MAP):在MLE的基础上乘一个先验概率
无监督学习代表:聚类
决策树
输入变量到真值有一个真值表,将其变为树的形式,根到叶子的路径表示真值表的一行
优化目标:减小树的规模,增加泛化程度
最优类别划分:根据熵(信息增益)来选择最优属性。
剪枝:预剪枝(划了不如不划),后剪枝(不如换成叶节点)
连续值的处理:二分
缺失值的处理:类别划分时,对公式作推广
线性回归
给定数据集,求一个模型可以预测结果
线性回归: \(f(x_i)=w^Tx_i+b\) ,对均方误差函数求最小值
正则化:优化结构,即对系数的绝对值加权 \(\lambda\)
概率论
切比雪夫不等式:假设随机变量 X 有期望 \(E(X)=\mu\) , 方差 \(Var(X)=\sigma^2\) ,则对任意整数 \(\epsilon\) ,有 \(P(|X-\mu|\ge\epsilon) \le \frac{\sigma^2}{\epsilon^2}\)
大数定理:n个独立同分布随机变量,则它们的均值依概率收敛于 \(\mu\)
中心极限定理:大量独立同分布变量之和依分布收敛于正态分布。
MLE与MAP:
MLE认为参数是未知的常数,需要用数据去估计
MAP认为参数是随机变量,有它自己的概率分布
MLE对小数据容易过拟合;MAP对不同的先验的结果不同。
贝叶斯决策论
贝叶斯决策论:如何基于概率和误判损失来最优化类别标记,即使风险函数最小。
决策面:二分类问题中,被分类到两类概率相同的样本取值构成的面。
贝叶斯误差:被分类错误的概率,P(mistake)=P(X in L1, Y=0) + P(X in L0, Y=1)
贝叶斯分类器的三种分类方法:
- 确定条件概率密度、推断先验概率,使用贝叶斯定理求后验概率(生成式模型)
- 直接解决后验概率问题,使用决策论分类(判别式模型)
- 找到一个函数,直接将输入映射到标签。与概率无关。
KNN(K邻近)分类器
根据与原本最近的 k 个样本的投票决定标签。
K值选择、距离度量、决策规则
朴素贝叶斯
生成式模型
认为各变量条件独立,那么可以将变量之间分开,然后用贝叶斯公式
逻辑回归
判别式模型。直接学习 \(P(Y|X)\)
可以拓展到多分类。所以目的是学习w
计算交叉熵 \(l(w)=\sum_lY^l\ln P(Y^l=1|X^l,W)+(1-Y^l)ln P(Y^l=0|X^l,W)\)
求极大值。
支持向量机(SVM)
找一个直线,将样本分成两半,且间隔最大
即对于所有类1的点,满足 \(w^Tx+b\ge C\) ,类 -1 的点满足 \(w^Tx+b\le-C\)
最大化间隔,即 \(2C/||w||\) 。总之最终是
凸二次优化问题,用拉格朗日乘子法。
上述为硬间隔最大化,实际上有软间隔最大化,即对每个样本点加入一个松弛变量,松弛变量有代价。即
聚类
k-means:
聚类。
初始化 k 个簇中心,每个样本找离其最近的簇归类,然后再调整中心的坐标,不断迭代。
实际上是在优化 \(\min_{\mu,c}\sum_i\sum_{C(j)=i}||\mu_i-x_j||^2\)
实际上也是 EM 的步骤:先固定 \(\mu\) 优化 \(C\) ,再固定 \(C\) 优化 \(\mu\)
GMM(混合高斯模型):
k-means中的 C 函数太硬,我们把它换成后验概率,即 x 属于各个类的概率,然后作MLE,总之最后有了迭代式子
EM的步骤:先计算后验概率,再根据后验概率迭代参数
PCA 主成分分析
主要目的是降维——把原样本空间中相关的维度剔除,留下的维度更能表示原数据。
具体步骤:
- 去中心化
- 计算协方差矩阵
- 对协方差矩阵进行特征值分解,找到最大的 k 个特征值对应的特征向量,标准化,组成特征向量矩阵W
- \(z_i=W^Tx_i\)
思想大概是找到在样本空间中单位偏移量影响最大的 k 个方向保留,其他方向抹除,即投影在 k 维超平面上。
被删除的特征往往与噪声有关,所以这也是某种意义上的降噪