rrobber

导航

人工智能学习总结_2

人工智能

四、线性回归

4.1 线性回归

QQ图片20231210193510

(1)线性回归特点:解释性强,简单,泛化能力稳定。

(2)特征 : 输入的不同维度叫做特征。如果特征本身很重要,线性回归就很有效,但是挑选特征是非常困难的。(神经网络本质就是自动挑选、学习特征的机器)

(3)最小化损失函数的方法:梯度下降法

QQ图片20231211185427

梯度下降法的计算

4.2 感知算法

(1)感知算法是神经网络原始形式;只能够学线性可分的函数

(2)逻辑回归——二分类: f ( x ) = 在A类别的概率;1 - f ( x ) = 在B类别的概率

(3)逻辑回归——决策分界:sign ( wT x ) 的 “ 软化 ” 版本。

(4)多分类问题:与二分类问题相似,不过在其基础上添加了一个概率。不仅适用于线性问题,也适用于神经网络及其他多分类问题。(使用了softmax函数,即sigmoid函数的更一般形式)

4.3 熵

(1)信息熵

QQ图片20231211142928

(2)交叉熵:主观上认为一个事情发生的概率很低(1/ ps(x) 很大),但客观上发生概率很高(po(x) 很大)时,交叉熵很大。

​ ① XE(y, p) = - Σi yi log pi

​ ② 主观客观匹配时,交叉熵 = 信息熵

​ ③ 比使用 log yi 编码效率低,所以 XE(y, p) ≥ H(y)

(3)相对熵,KL散度:度量主观认识和客观之间的差异

(4)岭回归

​ ① 本质是 线性回归 + 控制参数长度

​ ② 虽然参数向量长度会短一些,但每个特征仍会得到一些(可能非常小的)系数

QQ图片20231211143900

(5)套索回归:寻找稀疏解

​ ① 使用 1- 范数 (矩形)

​ ② 优化:将每步梯度下降分为两部分(本质是拖到0),一直重复这两部分,直到两部分对冲,形成均衡。

(6)比较线性回归,岭回归,套索回归:线性回归的答案可以完美拟合最后的问题,岭回归给出的答案有更小的长度,套索给出的答案更加稀疏(第二个维度是0)。

4.4 支持向量机(SVM)

(1)硬边界 和 软边界

​ ① 硬边界:特征最多在边界上。

​ ② 软边界: “稍微越界了一点” 没问题。

(2)SVM-硬边界版本QQ图片20231211144832

(3)核方法:将数据变换到另一个线性可分的空间。(使用核函数)

​ ① 适用场景:不存在一个能正确划分两类样本的超平面时,使用核函数将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。

​ ② 问题:核函数维度过高,很难计算;分类器维度过高,很难计算。

五、决策树

5.1 决策树模型

(1)定义

​ ① 决策树适用于表格数据——特征既有类别特征也有数值特征

QQ图片20231211145435

​ ② 决策变量和目标

  • 决策变量:特征 X(是否来自陌生地址、是否包含 “转账” …)
  • 决策目标:预测值Y(回归问题,如预测目标是实数,如价格;分类问题,如预测目标是正常、垃圾邮件)

​ ③ 决策树表示一个分段常数函数(将输入的数据X所在空间分割为多个不同子空间,然后为每个子空间(对应一个叶子节点)赋予一个预测值)

​ ④ 特点:模型相对简单,具有较好的解释性,但是预测效果比不上更高级的模型

​ ⑤ 使用了自顶向下的构造算法

5.2 决策树的训练

(1)决策树的组成:叶子节点的预测值+决策树的结构。

(2) 决策树训练:产生一棵泛化能力强的决策树,通过特征逐级判断,从根节点——叶子赋值未见示例。

​ ① 初始化一根节点,对应所有训练数据。

​ ② 选择一个特征,设置一个分割条件。

​ ③ 依据该条件构造根的两个叶子,每个叶子对应一部分数据。

​ ④ 重复以上步骤至达到一定的终止条件。

根据损失函数易求出每片叶子上的最优预测值。

(3)划分选择

​ ① 决策树学习的关键:如何选择最优划分属性。(一般希望决策树分支结点所包含样本尽可能属于同一类别,即结点 “纯度” 越来越高)

​ ② 经典属性划分方法:信息增益、增益率、基尼指数。

​ ③ 信息增益:信息增益越大,使用属性 a 来进行划分所获得的 “纯度提升”越大。(ID3 决策树学习算法以信息增益为准测来选择划分属性)

信息增益的计算

(4)基尼指数:

​ ① 基尼值:反映了从D中随机抽取两个样本,其类别标记不一致的概率。用于度量数据集D的纯度,基尼值越小数据集D纯度越高。

QQ图片20231211151533

​ ②数据集D中属性a的基尼指数:

image-20231211151624303

​ ③ 应选择使划分后基尼指数最小的属性作为最优化分属性。(CART采用“基尼指数”来选择划分属性,以减少对数运算)

(5)剪枝

​ ① 预剪枝:在决策树的训练过程中加入限制条件, 避免违反这些限制条件的分割

​ ② 后剪枝:先训练一个规模足够大的决策树, 然后再删去多余的树分支

六、集成学习

6.1 集成学习

(1)集成学习思想: 集合一系列弱模型的预测结果,从而实现更稳定、表现更好的模型。

(2)集成方法

​ ① 平行的集成学习方法:引导聚集方法(随机森林)

​ ② 串行的集成学习方法:提升算法(梯度提升决策树)

6.2 随机森林

image-20231211172851356

​ (1)思想:训练多个决策树,在训练每个决策树时引入一定的随机性(避免在训练中多个决策树给出相同的预测)

​ (2)决策树训练

​ ① 在训练时随机选取训练数据的一部分进行训练,而不是训练全部数据。(选取80%训练数据训练)

​ ③ 决策树训练中分割叶节点时随机选取特征的一个子集,仅从该子集中选取最优分割条件

(3)预测

  • 回归问题:预测输出为所有决策树预测的均值
  • 分类问题:对所有决策树预测类别进行投票,取得票最高类别作为最终预测结果

(4)特点

​ ① 随机性:训练数据的随机性;特征选取的随机性(分割叶子节点时仅考虑随机选取的两个特征)

​ ② 限制决策树最大深度为1,不同子树相对独立

​ ③ 适用于表格型数据

(5)优缺点

​ ① 利用随机性在同一训练集上训练出多个不同的决策树,整合这些决策树的结果达到超过单个决策树的效果;模型效果一般比较好;训练速度比较慢(相对GDBT模型)。

6.3 梯度提升

image-20231211172904519

(1)思想:不断训练新的决策树,以弥补已经训练好的决策树的误差。

(2)特点

​ ① 梯度提升使用的子模型通常是决策树这样的简单模型

​ ② 广泛应用于表格类数据,使用非常广泛

​ ③ 新子树拟合已有子模型的结果相对于数据标签的残差或负梯度,字数间不独立

(3)防止过拟合:在第n + 1 轮损失函数中加入正则项Ω(T(n+1)) 来表示决策树Tn+1的复杂度。

(2)梯度提升决策树和随机森林相比:梯度提升决策树各个子模型之间存在更强的依赖关系。

posted on 2024-01-20 17:21  rrobber  阅读(40)  评论(0编辑  收藏  举报