《机器学习》第二次作业——第四章学习记录和心得

第四章学习记录和心得

4.1 线性判据基本概念

判别模型:给定训练样本\({x_n}\),直接在输入空间内估计后验概率\(p(C_i|x)\)

  1. 优势: 快速直接、省去了耗时的高维观测似然概率估计。

线性判据

定义: 如果判别模型f(x)是线性函数,则f(x)为线性判据。

  • 可以用于两类分类,决策边界是线性的。
  • 也可以用于多类分类,相邻两类之间的决策边界也是线性的。

image-20210523093239883

image-20210526152032382

image-20210526152102874

4.2 线性判据学习概述

image-20210523100017423

image-20210526152237709

4.3 并行感知机算法

并行感知机

  • 预处理

image-20210526152348993

image-20210526152437245

对目标函数求偏导

image-20210526152504163

  • 梯度下降法

image-20210526152551503

image-20210526152632397

image-20210526152610470

4.4 串行感知机算法

  • 适合情况: 训练样本是一个个串行给出的。
  • 目标函数:

image-20210526153043429

目标函数求解

image-20210526153119467

image-20210526153134582

收敛性:如果训练样本是线性可分的,感知机(并行和串行)算法理论上收敛于一个解。

image-20210526153217398

  • 提高感知机泛化能力
  • 问题:当样本位于决策边界边缘时,对该样本的决策有很大的不确定性
  • 解决思路:

image-20210526153301258

  • 目标函数

image-20210526153330216

  • 目标函数求解

image-20210526153351012

4.5 Fisher线性判据

image-20210524214647755

image-20210524214023763

image-20210526153505455

  • 目标函数新表达

image-20210526153535492

image-20210524214037323

最优解

image-20210524214628605

4.6 支持向量机基本概念

  • 设计思想: 给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大。

image-20210524214810320

image-20210524214820715

image-20210526153719566

4.7 拉格朗日乘数法

image-20210526153754488

image-20210526153916546

image-20210526153932162

image-20210526153951974

image-20210526154028569

image-20210526154048176

image-20210526154119151

4.8 拉格朗日对偶问题

image-20210524215625896

  • 主问题难以求解或者是NP难问题

  • 解决方案: 求解对偶问题

image-20210524215713946

  • 对偶问题给出了主问题最优解的下界

image-20210526154225631

image-20210526154243719

4.9 支持向量机学习算法

image-20210524220102812

image-20210524220130262

image-20210524222516128

  • 该问题是一个二次优化问题,可以直接调用相关算法求解

image-20210525163636536

image-20210525163705816

image-20210525163926327

4.10 软间隔支持向量机

有些训练样本带有噪声或者是离群点.如果严格限制所有样本都在间隔区域之外,噪声点可能被选做支持向量,使得决策边界过于拟合噪声。

解决方案: 软间隔SVM

image-20210525163650054

image-20210526154837054

image-20210525163956636

image-20210525164005207

4.11 线性判据多类分类

  • 多类分类的本质:非线性

    可以通过多个线性模型组合的途径实现多类分类

  • one-to-all 策略

image-20210526154934258

image-20210525164519722

存在混淆区域

image-20210526155006454

  • 线性机

image-20210525164608642

image-20210526155059077

one-to-one策略

image-20210525164751391

4.12 线性回归

image-20210525165059527

image-20210525165106376

  • 目标函数: 均方误差

image-20210526155217321

image-20210525165605659

使用梯度下降法求解

image-20210525165614654

得出最优解\(W=(x^TX)^{-1}X^TT\)

4.13 逻辑回归的概念

  • 如果两个类别数据分布的协方差矩阵相同,则MAP分类器的决策边界是一个超平面,即线性。MAP分类器等同于一个线性判据,可见,MAP分类器可以在线性和非线性之间切换,为我们将线性模型改进成非线性模型提供了思路。
  1. Logit变换

image-20210526085015085

image-20210526085111024

image-20210526085136419

在每类数据是高斯分布且协方差矩阵相同的情况下,x属于C1类的后验概率与属于C2类的后验概率之间的对数比率就是线性模型f(x)的输出。

image-20210526085247747

由于Logit变换等同于线性判据的输出,所以在此情况下Logit(z)是线性的。

image-20210526085427856

  • Sigmoid函数

image-20210526085549066

  • 逻辑回归

image-20210526085632022

  • 决策过程:

image-20210526085702967

单个逻辑回归就是一个神经元模型

  • 总结
  1. 逻辑回归本身是一个非线性模型。
  2. 逻辑回归用于分类:仍然只能处理两个类别线性可分的情况。但是,sigmoid函数输出了后验概率,使得逻辑回归成为一个非线性模型。因此,逻辑回归比线性模型向前迈进了一步。
  3. 逻辑回归用于拟合:可以拟合有限的非线性曲线。

image-20210526090032488

4.14 逻辑回归的学习

  • 学什么:给定训练样本,学习参数w和\(w_0\)
  • image-20210526091521695

image-20210526093542155

针对训练样本(\(x_n,t_n\)),如果模型输出概率较低,说明参数不是最优的

  • 似然函数

image-20210526094000748

image-20210526094018356

image-20210526094040151

  • 交叉熵

image-20210526094132988

image-20210526094148194

  • 使用梯度下降法对目标函数优化

image-20210526094223881

image-20210526094306077

image-20210526094506950

image-20210526094528228

  • 当y = wTx+w0较大时,sigmoid函数输出z会出现饱和:输入变化量△y很大时,输出变化量△z很小。

  • 在饱和区,输出量z接近于1,导致sigmoid函数梯度值接近于0,出现梯度消失问题。

  • 如果迭代停止条件设为训练误差为0,或者所有训练样本都正确分类的时候才停止,则会出现过拟合问题。

  • 所以,在达到一定训练精度后,提前停止迭代,可以避免过拟合。

4.15 Softmax判据的概念

image-20210526143545440

image-20210526143602486

  • 得到任意正类的后验概率p\((C_i|x)\)

image-20210526143658385

  • 重新审视参考负类的后验概率\(p(C_i|x)\)

image-20210526143847155

  • 得到任意类的后验概率\(p(C_i|x)\)

image-20210526143917622

  • Softmax函数

image-20210526144017244

  1. 如果一个类\(C_i\)对应的\(y_i\)(即线性模型的输出)远远大于其他类的,经过exp函数和归一化操作,该类的后验概率\(p(C_i|x)\)接近于1,其他类的后验概率接近于0,则softmax决策就像是一个max函数。
  2. 但是,该函数又是可微分的,所以称作“软最大值函数”。
  • Softmax判据:K个线性判据+ softmax函数。

image-20210526144215886

image-20210526144458834

image-20210526144512867

  • Softmax适用范围:分类/回归

  • 前提:每个类和剩余类之间是线性可分的。

  • 范围:可以拟合指数函数(exp)形式的非线性曲线。

  • 总结 image-20210526144723245

4.16 Softmax判据的学习

image-20210526144832820

  • 给定训练样本,学习K组参数image-20210526145029103

image-20210526145105708

image-20210526145134508

目标函数

image-20210526145409203

image-20210526145424719

image-20210526145458787

对参数\(w_k\)求偏导

image-20210526145546941

image-20210526145559843

image-20210526145635440

对参数\(w_{0k}\)求偏导

image-20210526145738349

  • 采用梯度下降法更新所有{\({w_i},w_{0i}\)}
    1. 设当前时刻为k,下一个时刻为k +1
    2. η为更新步长。

image-20210526150002806

4.17 核支持向量机

  • 提出问题:异或问题分类边界是非线性曲线

image-20210526150650416

image-20210526150704692

image-20210526150730571

image-20210526150743487

image-20210526150807197

  • 核函数:在低维X空间的一个非线性函数,包含向量映射和点积功能,即作为X空间两个向量的度量,来表达映射到高维空间的向量之间的点积:

image-20210526150832702

image-20210526150842609

决策边界方程也由N个非线性函数的线性组合来决定。因此,在X空间是一条非线性边界。

  • Kernel SVM的学习

  • 由于kernel SVM在高维o空间是线性的,所以kernel SVM的对偶函数可以表达为:image-20210526151038211

image-20210526151054507

  • 核函数如何设计?核函数如何影响分类边界?

Mercer条件:只要是半正定对称函数,都可以用作核函数。即对于N个样本,如下矩阵K是半正定对称矩阵。

image-20210526151137805

  • 多项式核函数

image-20210526151219465

  1. 不同的核函数参数值,决定了不同的支持向量和分类边界。
  2. ρ,m:取值越高,分类边界非线性程度越高。
  • 高斯核函数

image-20210526151313898

  1. 不同的核函数参数值,决定了不同的支持向量和分类边界。
  2. 方差越小,分类边界越不平滑,甚至出现孤岛(过拟合)。

思维导图

posted @ 2021-05-26 22:15  DQBryant  阅读(128)  评论(0编辑  收藏  举报