《机器学习》第二次作业——第四章学习记录和心得

思维导图:第四章-线性判据与回归

线性判据基本概念

生成模型

给定训练样本 {𝒙𝑛},直接在输入空间内学习其概率密度函数p(𝒙)。

优势:可以根据p(x)采样新的样本数据;可以检测出较低概率的数据,实现离群点检测。

劣势:在高维空间会出现维度灾难问题。

判别模型

给定训练样本{xn},直接在输入空间内估计后验概率P(Ci,x)

优势:快速直接,省去了耗时的高维观测似然概率估计。

线性判据

若判别模型f(x)是线性函数,则f(x)为线性判据。

适用范围:可以用于两类分类和多类分类,相邻两类之间的决策边界是线性的。

优势:计算量少,适用于训练样本较少的情况。

线性判据的数学表达

决策边界方程


线性判据学习概述

监督式学习(训练)过程:基于训练样本{𝒙1, 𝒙2, … , 𝒙𝑁}及其标签{𝑡1, 𝑡2, … , 𝑡𝑁} ,设计目标函数,学习𝐰和𝑤0。

识别过程:将待识别样本𝒙带入训练好的判据方程。

解不唯一:训练样本个数通常远大于参数个数,故线性判据满足条件的解不唯一。

参数空间:由各个参数维度构成的空间。

解域:在参数空间内,参数的所有可能解所处的范围

如何从解域中找到最优解:设计目标函数并求解;在算法中加入约束条件,提高泛化能力。

并行感知机算法

目的:根据标记过的训练样本,学习模型参数w,w0。

预处理步骤

几何解释:在特征空间中增加一个维度,是的决策边界可以通过原点; 翻转C2类的样本,使得所有样本处于该平面的同一侧。

基本思想:被错误分类的样本最少。

目标函数:被错误分类的样本最少(输出值小于0的训练样本)。

梯度下降法:使用当前梯度值迭代更新参数。

串行感知机算法

适用情况:训练样本是一个一个串行给出的。

目标函数:如果当前训练样本被错误分类,最小化其输出值取反。

目标函数求解

  • 最小化目标函数:取关于参数向量𝒂的偏导。
  • 偏导不含有𝒂,所以仍使用梯度下降法来求解𝒂。
  • 收敛性:如果训练样本是线性可分的,感知机(并行和串行)算法理论上收敛于一个解。只保证了算法会停止。
  • 步长决定收敛的速度、以及是否收敛到局部或者全局最优点。
  • 加入Margin约束

Fisher线性判据

基本原理:找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最少,从而使分类效果达到最佳。

目标函数

最优参数解


决策边界方程:过点𝝁,斜率为(𝝁1 − 𝝁2)𝐒𝑤−1的超平面。

支持向量机基本概念

设计思想:给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大。

支持向量概念

支持向量是位于两个超平面上的样本

支持向量

支持向量机

目标:最大化总间隔,等价于最小化| 𝒘 |

拉格朗日乘数法

用于解决支持向量机的目标函数的一个条件优化问题。

约束

  • 函数在等高面上任意一点的梯度方向与其等高面(切线方向)正交,且朝向(即正方向)函数值较高的方向。
  • 𝑓(𝒙)的极值点𝒙∗必须位于曲线𝑔 𝒙 = 0上。
  • 搜寻极值点𝒙∗:沿着𝑔 𝒙 = 0的切线方向、向着𝑓 𝒙 负梯度方向移动。当出现沿着切线方向、无法再向𝑓(𝒙) 负梯度方向移动时停止。

KKT条件

在𝑔 (𝒙) ≤ 0约束条件下最小化𝑓(𝒙)的问题,可以转化为如下约束条件 (KKT条件)下的拉格朗日函数优化问题:

多个约束

将多个约束下最小化f(x)的问题转为KKT条件下的拉格朗日函数优化问题

拉格朗日对偶问题

对偶函数:主问题的最优值下界

对偶函数LD是拉格朗日函数L的逐点最小值函数。

逐点最小值函数min是凹函数。

由于逐点最大化函数是凹函数,且拉格朗日函数可以看做关于对偶变量的仿射组合,故对偶函数LD是凹函数。

凸优化:由于目标函数LD是凹函数,约束条件是凸函数,所以对偶问题是凸优化问题。

强对偶性:如果强对偶性成立,则对偶问题获得主问题的最优下界。

支持向量机学习算法

支持向量机目标函数的求解:带不等式约束的优化问题使用拉格朗日对偶法求解。

对偶问题的求解:二次规划问题+参数最优化。

w最优解

决策过程:𝒘 和 𝑤0 的学习过程实际上是从训练样本中选择一组支持向量,并将这些支持向量存储下来,用作线性分类器。

软间隔支持向量机

软间隔:克服过拟合,允许一些训练样本出现在间隔区域内,从而具备一定的克服过拟合的能力

设计思想:引入松弛变量𝜉𝑛,允许一些训练样本出现在间隔区域内,形成软间隔。

分类器

设计过程

  • 构建目标函数
  • 构建拉格朗日函数
  • 构建对偶函数

线性判据多类分类

多个模型:多个模型(线性/非线性)组合成非线性决策边界。

one-to-all

假设条件:假设每个类与剩余类可分,总共需要训练K个分类器。

线性机

线性机 = 𝐾个线性模型 + 一个max函数

决策边界

通过max函数的引入,线性机将特征空间最终分为𝐾个决策区域。
决策边界𝐻𝑖𝑗垂直于超平面(𝒘𝑖 − 𝒘𝑗)

输出值投票法:使用两类权重𝒘向量的差值决定相邻两类之间的决策边界;
标签识别法:利用每一类的权重𝒘向量决定该类与剩余类之间的决策边界。

优势:由于使用max函数,不再有混淆区域(即拒绝区域和重叠区域)。通过划定相邻两类之间的边界,分割了重叠区域和拒绝区域。

one-to-one

基本思想:针对每两个类𝐶𝑖 和𝐶𝑗 ,训练一个线性分类器:𝑓𝑖𝑗 𝒙 = 𝒘𝑖𝑗𝑇𝒙 + 𝑤0𝑖𝑗。𝐶𝑖类真值为正;𝐶𝑗类真值为负。总共需要训练𝐾(𝐾 − 1) /2个分类器。

决策边界

给定测试样本𝒙,如果所有𝐶𝑖 相关的分类器输出都为正,则𝒙属于𝐶𝑖
𝐶𝑖类与剩余类的决策边界:所有𝐻𝑖𝑗正半边的交集。

优势:适用于一些线性不可分的情况,从而实现非线性分类;与one-to-all策略相比,不再有重叠区域。
问题:会出现拒绝选项,即样本不属于任何类的情况。

总结

  • 使用线性判据进行多类分类,本质上是利用多个线性模型组合而成一个非线性分类器。
  • 因此,决策边界不再是由单个超平面决定,而是由多个超平面组合共同切割特征空间。

线性回归

输入样本:个数与特征维度的关系

线性回归模型表达

线性回归和线性判据的模型对比

目标优化

展开目标函数

对参数𝑾求偏导

梯度下降法

采用梯度下降法更新𝒘和𝑤0:
(1)设当前时刻为𝑘,下一个时刻为𝑘 + 1
(2)𝜂为更新步长

最小二乘法

线性回归的概率解释

目标函数优化:似然函数

最大似然等同于最小化均方误差(MSE)。

逻辑回归的概念

典型模型的属性

MAP分类器

如果两个类别数据分布的协方差矩阵不同(即Σ𝑖 ≠ Σ𝑗),则MAP分类器的决策边界是一个超二次型曲面,即非线性。
如果两个类别数据分布的协方差矩阵相同(即Σ𝑖 = Σ𝑗 ),则MAP分类器的决策边界是一个超平面,即线性。

Logit变换

𝐶1类的后验概率与𝐶2类的后验概率之间的对数比率
对于二类分类,MAP分类器通过比较后验概率的大小来决策。
在每类数据是高斯分布且协方差矩阵相同的情况下,由于Logit变换等同于线性判据的输出,所以在此情况下Logit(z) 是线性的。

Sigmoid函数

连接线性模型和后验概率的桥梁
线性模型𝑓(𝒙) + Sigmoid函数 = 后验概率

逻辑回归

线性模型𝑓(𝒙) + sigmoid函数。

决策边界:单个逻辑回归可以用于二类分类;给定两个类,逻辑回归的决策边界仍然是线性的超平面。

总结

  • 逻辑回归本身是一个非线性模型。
  • 逻辑回归用于分类:仍然只能处理两个类别线性可分的情况。但是,sigmoid函数输出了后验概率,使得逻辑回归成为一个非线性模型。因此,逻辑回归比线性模型向前迈进了一步。
  • 逻辑回归可以拟合有限的非线性曲线。

逻辑回归的学习

给定训练样本,学习参数𝒘和𝑤0。

最大似然估计法

给定单个输入样本𝒙,模型输出的类别标签𝑙可以看做一个随机变量。

交叉熵

交叉熵可以用来度量两种分布的差异程度。
训练目标:给定单个样本𝒙𝑛,希望模型预测输出的概率分布𝑝 (𝑙𝑛|𝒙𝑛)符合输出真 值的概率分布𝑞(𝑙𝑛|𝒙𝑛),即两种分布的差异程度最小。
目标函数:给定𝑁个训练样本,把每个训练样本的交叉熵求和,得到最终的目标函数:

目标函数优化

梯度下降法:对参数w求偏导;对参数w0求偏导;参数更新:采用梯度下降法更新w和w0;
梯度消失问题

Softmax判据的概念

后验概率的多类情况:一个类与剩余类的后验概率比率。

由Logit变换可知:正负类后验概率比率的对数是一个线性函数。

对于多类分类,K个线性模型也跟每个类对应的后验概率建立起了联系。

Softmax函数

判据:𝐾个线性判据 + softmax函数。
决策过程:给定测试样本𝒙,经由线性模型和softmax函数计算𝐾个类对应的 后验概率, 𝒙属于最大后验概率对应的类别。
决策边界:决策区域相邻的两类𝐶𝑖和𝐶𝑗,它们的决策边界𝐻𝑖𝑗为线性。
Softmax判据用于分类,等同于基于one-to-all策略的线性机。

适用范围:分类、回归

总结

  • Softmax判据本身是一个非线性模型。
  • Softmax判据用于分类:只能处理多个类别、每个类别与剩余类线性可分的情况。但是, Softmax判据可以输出后验概率。因此,Softmax判据比基于one-to-all策略的线性机向前迈进了一步。
  • Softmax判据用于拟合:可以输出有限的非线性曲线。

Softmax判据的学习


训练样本:给定𝐾个类别,共𝑁个标定过的训练样本。

目标函数

针对所有训练样本,最大化输出标签分布的似然函数,以此求得参数的最优值。似然函数为所有训练样本输出概率的乘积。

最大似然估计

Softmax:针对每个输出类别分别计算梯度值,但每个参数的梯度值与所有类别样本都相关。

核支持向量机

基本思想

  • 如果样本在原始特征空间(𝑋空间)线性不可分,可以将这些样本 通过一个函数𝜑映射到一个高维的特征空间(Φ空间),使得在这 个高维空间,这些样本拥有一个线性分类边界。
  • 如果在高维空间Φ两个类是线性可分的,则可以应用线性SVM来实现 𝑋空间的非线性分类

核函数

在低维X空间的一个非线性函数,包含向量映射和点积功能,即作为X空间两个向量的度量,来表达映射到高维空间的向量之间的点积。
Mercer条件:只要是半正定对称函数,都可以用作核函数。 即对于𝑁个样本,如下矩阵𝐾是半正定对称矩阵。

常见核函数

多项式核函数

高斯核函数

核函数的优缺点

总结

  • 构建非线性
    • 需要有非线性的基函数,例如,核函数。
    • 需要多个这样的基函数进行组合(可以是线性组合)。
  • 组合方式
    • 并行组合:Kernel SVM
    • 串行组合
posted @ 2021-05-27 21:04  Synnn  阅读(181)  评论(0编辑  收藏  举报