人工智能学习总结_2

人工智能

四、线性回归

4.1 线性回归

QQ图片20231210193510

（1）线性回归特点：解释性强，简单，泛化能力稳定。

（2）特征：输入的不同维度叫做特征。如果特征本身很重要，线性回归就很有效，但是挑选特征是非常困难的。（神经网络本质就是自动挑选、学习特征的机器）

（3）最小化损失函数的方法：梯度下降法

QQ图片20231211185427

梯度下降法的计算

4.2 感知算法

（1）感知算法是神经网络原始形式；只能够学线性可分的函数

（2）逻辑回归——二分类： f ( x ) = 在A类别的概率；1 - f ( x ) = 在B类别的概率

（3）逻辑回归——决策分界：sign ( w^T x ) 的 “ 软化 ” 版本。

（4）多分类问题：与二分类问题相似，不过在其基础上添加了一个概率。不仅适用于线性问题，也适用于神经网络及其他多分类问题。（使用了softmax函数，即sigmoid函数的更一般形式）

4.3 熵

（1）信息熵

QQ图片20231211142928

（2）交叉熵：主观上认为一个事情发生的概率很低（1/ p_s(x) 很大），但客观上发生概率很高（p_o(x) 很大）时，交叉熵很大。

① XE(y, p) = - Σ_i y_i log p_i

② 主观客观匹配时，交叉熵 = 信息熵

③ 比使用 log y_i 编码效率低，所以 XE(y, p) ≥ H(y)

（3）相对熵，KL散度：度量主观认识和客观之间的差异

（4）岭回归

① 本质是线性回归 + 控制参数长度

② 虽然参数向量长度会短一些，但每个特征仍会得到一些（可能非常小的）系数

QQ图片20231211143900

（5）套索回归：寻找稀疏解

① 使用 1- 范数（矩形）

② 优化：将每步梯度下降分为两部分（本质是拖到0），一直重复这两部分，直到两部分对冲，形成均衡。

（6）比较线性回归，岭回归，套索回归：线性回归的答案可以完美拟合最后的问题，岭回归给出的答案有更小的长度，套索给出的答案更加稀疏（第二个维度是0）。

4.4 支持向量机（SVM）

（1）硬边界和软边界

① 硬边界：特征最多在边界上。

② 软边界： “稍微越界了一点” 没问题。

（2）SVM-硬边界版本 QQ图片20231211144832

（3）核方法：将数据变换到另一个线性可分的空间。（使用核函数）

① 适用场景：不存在一个能正确划分两类样本的超平面时，使用核函数将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。

② 问题：核函数维度过高，很难计算；分类器维度过高，很难计算。

五、决策树

5.1 决策树模型

（1）定义

① 决策树适用于表格数据——特征既有类别特征也有数值特征

QQ图片20231211145435

② 决策变量和目标

决策变量：特征 X（是否来自陌生地址、是否包含 “转账” …）
决策目标：预测值Y（回归问题，如预测目标是实数，如价格；分类问题，如预测目标是正常、垃圾邮件）

③ 决策树表示一个分段常数函数（将输入的数据X所在空间分割为多个不同子空间，然后为每个子空间（对应一个叶子节点）赋予一个预测值）

④ 特点：模型相对简单，具有较好的解释性，但是预测效果比不上更高级的模型

⑤ 使用了自顶向下的构造算法

5.2 决策树的训练

（1）决策树的组成：叶子节点的预测值+决策树的结构。

（2）决策树训练：产生一棵泛化能力强的决策树，通过特征逐级判断，从根节点——叶子赋值未见示例。

① 初始化一根节点，对应所有训练数据。

② 选择一个特征，设置一个分割条件。

③ 依据该条件构造根的两个叶子，每个叶子对应一部分数据。

④ 重复以上步骤至达到一定的终止条件。

根据损失函数易求出每片叶子上的最优预测值。

（3）划分选择

① 决策树学习的关键：如何选择最优划分属性。（一般希望决策树分支结点所包含样本尽可能属于同一类别，即结点 “纯度” 越来越高）

② 经典属性划分方法：信息增益、增益率、基尼指数。

③ 信息增益：信息增益越大，使用属性 a 来进行划分所获得的 “纯度提升”越大。（ID3 决策树学习算法以信息增益为准测来选择划分属性）

信息增益的计算

（4）基尼指数：

① 基尼值：反映了从D中随机抽取两个样本，其类别标记不一致的概率。用于度量数据集D的纯度，基尼值越小数据集D纯度越高。

QQ图片20231211151533

②数据集D中属性a的基尼指数：

③ 应选择使划分后基尼指数最小的属性作为最优化分属性。（CART采用“基尼指数”来选择划分属性，以减少对数运算）

（5）剪枝

① 预剪枝：在决策树的训练过程中加入限制条件, 避免违反这些限制条件的分割

② 后剪枝：先训练一个规模足够大的决策树, 然后再删去多余的树分支

六、集成学习

6.1 集成学习

（1）集成学习思想：集合一系列弱模型的预测结果，从而实现更稳定、表现更好的模型。

（2）集成方法

① 平行的集成学习方法：引导聚集方法（随机森林）

② 串行的集成学习方法：提升算法（梯度提升决策树）

6.2 随机森林

（1）思想：训练多个决策树，在训练每个决策树时引入一定的随机性（避免在训练中多个决策树给出相同的预测）

（2）决策树训练

① 在训练时随机选取训练数据的一部分进行训练，而不是训练全部数据。（选取80%训练数据训练）

③ 决策树训练中分割叶节点时随机选取特征的一个子集，仅从该子集中选取最优分割条件

（3）预测

回归问题：预测输出为所有决策树预测的均值
分类问题：对所有决策树预测类别进行投票，取得票最高类别作为最终预测结果

（4）特点

① 随机性：训练数据的随机性；特征选取的随机性（分割叶子节点时仅考虑随机选取的两个特征）

② 限制决策树最大深度为1，不同子树相对独立

③ 适用于表格型数据

（5）优缺点

① 利用随机性在同一训练集上训练出多个不同的决策树，整合这些决策树的结果达到超过单个决策树的效果；模型效果一般比较好；训练速度比较慢（相对GDBT模型）。

6.3 梯度提升

（1）思想：不断训练新的决策树，以弥补已经训练好的决策树的误差。

（2）特点

① 梯度提升使用的子模型通常是决策树这样的简单模型

② 广泛应用于表格类数据，使用非常广泛

③ 新子树拟合已有子模型的结果相对于数据标签的残差或负梯度，字数间不独立

（3）防止过拟合：在第n + 1 轮损失函数中加入正则项Ω(T_(n+1)) 来表示决策树T_n+1的复杂度。

（2）梯度提升决策树和随机森林相比：梯度提升决策树各个子模型之间存在更强的依赖关系。

posted on 2024-01-20 17:21 rrobber 阅读(40) 评论(0) 编辑收藏举报

刷新页面返回顶部

rrobber

导航

公告