思维导图
学习心得
4.1 线性判据基本概念
- 生成模型 给定训练样本 {𝒙𝑛},直接在输入空间内学习其概率密度函数𝑝(𝒙)
- 判别模型 给定训练样本 {𝒙𝑛},直接在输入空间内估计后验概率𝑝(𝐶𝑖|𝒙)
- 优势 快速直接、省去了耗时的高维观测似然概率估计
- 线性判据 如果判别模型𝑓(𝒙)是线性函数,则𝑓(𝒙)为线性判据
- 线性判据模型:f(x) = wTx + w0
- 任意样本x到决策边界的垂直距离:r = f(x) / ||w||
4.2线性判据学习概述
- 解不唯一:训练样本个数通常远大于参数个数,故线性判据满足条件的解不唯一
- 监督式学习(训练)过程:基于训练样本{𝒙1, 𝒙2, … , 𝒙𝑁}及其标签{𝑡1, 𝑡2, … , 𝑡𝑁} ,设计目标函数,学习𝐰和𝑤0
- 识别过程:将待识别样本𝒙带入训练好的判据方程
- 约束条件 使得解域范围收缩
4.3并行感知机算法
- 感知机算法预处理的目的:根据标记过的训练样本,学习模型参数w,w0
- 预处理:参数合一,负类样本取反
- 解域:在参数空间内,参数的所有可能解所处的范围
- 梯度下降法:使用当前梯度值迭代更新参数
4.4 串行感知机算法
- 训练样本是一个一个串行给出的
- 思想:当前样本被错误分类的程度最小
- 目标函数:如果当前训练样本被错误分类,最小化其输出值取反
- 串行感知机算法流程:初始化参数->迭代更新->停止迭代->参数a初始值设为0或y1
- 最小化目标函数:取关于参数向量a的偏导
4.5 Fisher线性判据
- 基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最少,从而使分类效果达到最佳
- Fisher判据训练过程
4.6 支持向量机基本概念
- 设计思想:给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大
- 间隔的数学定义:在两个类的训练样本中,分别找到与决策边界最近的两个训练样本,记作x+和x-
- 支持向量机(SVM):最大化总间隔
- 间隔计算
4.7 拉格朗日乘数法
- 用于解决条件优化问题
- 等式约束:f(x)的极值点x∗必须位于曲线g(x)=0上
- 等式约束中g(x) = 0的条件,使得λ可正可负,f(x)和g(x)的梯度方向一定平行,但方向可能同向或者反向,且梯度幅值不同
4.8拉格朗日对偶问题
- 对偶函数:主问题的最优值下界 对偶函数LD是拉格朗日函数L的逐点最小值函数
- 由于逐点最大化函数是凹函数,且拉格朗日函数可以看做关于对偶变量的仿射组合,故对偶函数LD是凹函数
- 凸优化的性质:局部极值点就是全局极值点,于是对于主问题的求解,往往可以求解其对偶问题,得到主问题的下界估计
- 强对偶性:如果强对偶性成立,则对偶问题获得主问题的最优下界
4.9支持向量机学习算法
- 带不等式约束的优化问题使用拉格朗日对偶法求解
- 对偶问题的求解:二次规划问题+参数最优化
- w最优解
- 决策过程:𝒘 和 𝑤0 的学习过程实际上是从训练样本中选择一组支持向量,并将这些支持向量存储下来,用作线性分类器
4.10 软间隔支持向量机
- 由于绝对地要求间隔中无样本,并且可能存在噪声和异常点,导致其被选作支持向量,使得决策边界过拟合。所以允许在一定程度上,让训练样本出现在间隔区域内
- 软间隔克服过拟合的原理:可以将SVM的硬间隔放宽到软间隔,允许一些训练样本出现在间隔区域内,从而具备一定的克服过拟合的能力
- 引入松弛变量 松弛变量的大小决定了错误分类的程度
- 引入正则系数
- 构建拉格朗日函数、对偶函数(在极值点得到)、求解参数w和w0最优解
4.11线性判据多类分类
- 多类分类的本质:非线性
- 策略
- 思路一:One-to-all
- 假设条件:假设每个类与剩余类可分,总共需要训练K个分类器
- 问题:每个分类器的正负类样本个数不均衡
- 混淆区域问题:拒绝选项;重叠
- 思路二:线性机
- 假设条件:每个类与剩余类线性可分
- 训练:基于one-to-all策略训练𝐾个线性分类器𝑓𝑖,每个分类器对应一个类𝐶𝑖
- 决策:使用输出值投票法(max函数)给定测试样本𝒙,其属于所有分类器中输出值最大的那个类
- 优势:由于使用max函数,不再有混淆区域(即拒绝区域和重叠区域)。通过划定相邻两类之间的边界,分割了重叠区域和拒绝区域
- 问题:可能出现最大的𝑓𝑖(𝒙) ≤ 0,即测试样本𝒙出现在拒绝区域。如果严格按照线性判据的定义,拒绝区域其实是线性机(基于one-to-all策略)无法正确判断的区域
- 思路三:one-to-one策略
- 基本思想:针对每两个类𝐶𝑖 和𝐶𝑗 ,训练一个线性分类器:𝑓𝑖𝑗 𝒙 = 𝒘𝑖𝑗𝑇𝒙 + 𝑤0𝑖𝑗。𝐶𝑖类真值为正;𝐶𝑗类真值为负。总共需要训练𝐾(𝐾 − 1) /2个分类器
- 优势:适用于一些线性不可分的情况,从而实现非线性分类;与one-to-all策略相比,不再有重叠区域
- 问题:会出现拒绝选项,即样本不属于任何类的情况
- 思路一:One-to-all
4.12 线性回归
- 输入和输出
- 线性回归模型表达
- 线性回归和线性判据的模型对比
- 最大似然等同于最小化均方误差
4.13逻辑回归的概念
- 当两个类别数据的协方差不同时,MAP分类器的决策边界是超二次型曲面,非线性
- MAP分类器
- 如果两个类别数据分布的协方差矩阵不同(即Σ𝑖 ≠ Σ𝑗),则MAP分类器的决策边界是一个超二次型曲面,即非线性
- 如果两个类别数据分布的协方差矩阵相同(即Σ𝑖 = Σ𝑗 ),则MAP分类器的决策边界是一个超平面,即线性
- Logit变换:𝐶1类的后验概率与𝐶2类的后验概率之间的对数比率
- Sigmoid函数
- 线性模型𝑓(𝒙) + Sigmoid函数 = 后验概率
- 逻辑回归:线性模型𝑓(𝒙) + sigmoid函数
- 适用范围
- 分类(狭义/广义)(前提:两类线性可分)
- 回归(可拟合Sigmoid形式的非线性曲线)
4.14逻辑回归的学习
- 给定训练样本,学习参数𝒘和𝑤0
- 训练样本
- 正类(𝐶1类)样本的输出真值𝑡𝑛 = 1
- 负类(𝐶2类)样本的输出真值𝑡𝑛 = 0
- 最大似然估计法:给定单个输入样本𝒙,模型输出的类别标签𝑙可以看做一个随机变量
- 交叉熵:交叉熵可以用来度量两种分布的差异程度
- 优化目标函数
- 梯度下降法
- 达到一定训练精度,提前停止迭代,可以避免过拟合
4.15 Softmax判据的概念
- 分类K个类,构建K个线性分类器,分为该类和剩余类。由于所有类的后验概率和为1,可以得到任意类的后验概率表示。也就使得K个线性分类器能够计算得到每个类的后验概率
- 后验概率的多类情况:一个类与剩余类的后验概率比率
- 逻辑回归是由Logit变换反推出来的;由Logit变换可知:正负类后验概率比率的对数是一个线性函数
- 由Logit变换可知:正负类后验概率比率的对数是一个线性函数
4.16 Softmax判据的学习
- 给定训练样本,学习K组参数
- 目标函数:最大似然估计
- 和逻辑回归的学习相似,目标函数能够使用交叉熵解释。不同的是,使用one-hot编码,模型输出的概率分布符合多项分布
- Softmax:针对每个输出类别分别计算梯度值,但每个参数的梯度值与所有类别样本都相关
4.17 核支持向量机
- Kernel方法的基本思想:如果样本在原始特征空间(𝑋空间)线性不可分,可以将这些样本通过一个函数𝜑映射到一个高维的特征空间(Φ空间),使得在这个高维空间,这些样本拥有一个线性分类边界
- 核函数:在低维X空间的一个非线性函数,包含向量映射和点积功能,即作为X空间两个向量的度量,来表达映射到高维空间的向量之间的点积
- 常见核函数
- 多项式核函数
- 高斯核函数
- 多项式核函数
- 核函数的优缺点