分类与回归

分类：对数据集进行学习并构造一个拥有预测功能的分类模型，用于预测未知样本的类标号
回归：可以对预测变量和响应变量之间的联系建模（包括线性回归、非线性回归、逻辑回归等）

分类与回归的区别：

分类预测的输出为类标号，回归预测的输出为连续属性值
分类是监督学习，回归是无监督学习

分类算法有：

基于决策树分类
贝叶斯分类
K-最近邻分类
*神经网络
*支持向量机
*集成学习

基于决策树分类

构建决策树

两个问题：属性选择、树大小合适
经典的构建算法：ID3、C4.5、CART等

决策树的属性选择

常见的选择标准：信息增益、Gini系数

获得大小合适的树

两种获取方法：定义树的停止生长条件、对完全生长决策树进行剪枝

定义停止生长条件：
最小划分实例数：划分的子集大小小于该数时停止
划分阈值：父节点与划分的子节点的值的差小于阈值时停止
最大树深度
剪枝：对子树评估，若去掉子树后整个决策树表现更好，则剪掉该子树

节点划分

离散属性：每个可能取值一个分支
连续属性：给定阈值，小于等于阈值为一个分支，大于阈值为另一个阈值
离散属性构成二叉树：取属性的可能取值为一个集合，属于该集合为一个分支yes，不属于该集合为另一个分支no

ID3分类算法

概念：使用信息增益作为属性的选择标准

信息熵

概念：属性信息量的度量（或不确定性的度量），信息量越大熵越大
熵越小表示样本对目标属性的分布越纯，熵越大表示样本对目标属性分布越混乱

E (S) = E (p_{1}, p_{2}, . . ., p_{m}) = - \sum_{i = 1}^{m} p_{i} l o g_{2} p_{i} E 是 E n t r o p y 的 缩 写 ， E () 即 E n t r o p y () ， 是 训 练 集 S 对 目 标 属 性 C 的 信 息 熵 目 标 属 性 C 有 m 个 可 能 类 标 号 值 p_{i} 为 C_{i} 类 在 样 本 中 出 现 的 概 率

$E(S)=E(p_{1},p_{2},...,p_{m})=-\sum_{i=1}^{m}p_{i}log_{2}p_{i} \\E是Entropy的缩写，E()即Entropy()，是训练集S对目标属性C的信息熵 \\目标属性C有m个可能类标号值 \\p_{i}为C_{i}类在样本中出现的概率$

信息增益

概念：样本划分前后的信息熵差值（越大越好）

G (S, A) = E (S) - E_{A} (S) E_{A} (S) = \sum_{i = 1}^{k} \frac{| S_{i} |}{| S |} E (S_{i}) G () 即 G a i n () ， 是 按 属 性 A 划 分 样 本 集 S 的 信 息 增 益 E_{A} (S) 是 S 按 属 性 A 划 分 后 的 k 个 样 本 子 集 的 熵 | S_{i} | 和 | S | 分 别 是 集 合 S_{i} 和 S 的 大 小

$G(S,A)=E(S)-E_{A}(S) \\E_{A}(S)=\sum_{i=1}^{k}\frac{|S_{i}|}{|S|}E(S_{i}) \\G()即Gain()，是按属性A划分样本集S的信息增益 \\E_{A}(S)是S按属性A划分后的k个样本子集的熵 \\|S_{i}|和|S|分别是集合S_{i}和S的大小$

ID3建立决策树

步骤：

检测所有属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支
对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一个类别的数据为止

*缺失值处理

方法一：抛弃数据集中具有缺失值的数据
方法二：以某种方式填充缺失的数据（如使用属性的平均值代替）

*特点

优点：简单，学习能力强
缺点：只能处理分类属性数据，无法处理连续型数据；生成决策树时偏向选择具有较多分枝的属性

C4.5分类算法

概念：使用信息增益率作为属性的选择标准

与ID3相比，算法步骤中除了属性选择依据由信息增益变为信息增益率外，其余一样

信息增益率

相比信息增益，不仅考虑信息增益的大小，还兼顾为获得信息增益所付出的“代价”（消除属性取值数目所带来的影响），但同样是越大越好

G R (A) = \frac{G (A)}{S E (A)} S E (A) = - \sum_{i = 1}^{k} \frac{| S_{i} |}{| S |} l o g_{2} \frac{S_{i}}{S} G R () 即 G a i n R a t i o () ， 是 数 据 集 S 关 于 属 性 A 的 信 息 增 益 率 G (A) 即 G (S, A) ， 是 数 据 集 S 关 于 属 性 A 的 信 息 增 益 S E () 即 S p l i t E () ， 是 数 据 集 S 关 于 属 性 A 的 分 裂 信 息

$GR(A)=\frac{G(A)}{SE(A)} \\SE(A)=-\sum_{i=1}^{k}\frac{|S_{i}|}{|S|}log_{2}\frac{S_{i}}{S} \\GR()即GainRatio()，是数据集S关于属性A的信息增益率 \\G(A)即G(S,A)，是数据集S关于属性A的信息增益 \\SE()即SplitE()，是数据集S关于属性A的分裂信息$

*处理数值型属性

步骤：

对属性进行递增排序，把每对相邻值的中值点看作可能的分裂点
计算每个分裂点的 $E_A{S}$ ，选择最小的 $E_A{S}$ 对应的分裂点作为最佳分类点

*缺失值处理

与ID3不同，采用概率的方法，而不是简单地将最常见的值替代该缺失值

假设S为训练集，属性A存在缺失值，属性A的信息增益计算方法改为：

G (A) = r_{A} \times (E (S) - E_{A} (S)) S E (A) = - (\sum_{i = 1}^{k} \frac{| S_{i} |}{| S |} l o g_{2} \frac{| S_{i} |}{| S |}) - \frac{| S_{u n k n o w} |}{| S |} l o g_{2} \frac{| S_{u n k n o w} |}{| S |} r_{A} 是 属 性 A 在 样 本 集 中 不 空 值 的 比 率 把 A 的 属 性 类 别 值 未 知 的 样 本 子 集 作 为 类 别 S_{u n k n o w}

$G(A)=r_{A}\times(E(S)-E_{A}(S)) \\SE(A)=-\left ( \sum_{i=1}^{k}\frac{|S_{i}|}{|S|}log_{2}\frac{|S_{i}|}{|S|} \right )-\frac{|S_{unknow}|}{|S|}log_{2}\frac{|S_{unknow}|}{|S|} \\r_{A}是属性A在样本集中不空值的比率 \\把A的属性类别值未知的样本子集作为类别S_{unknow}$

*C4.5剪枝

C4.5采用的是后剪枝，即决策树得到充分生长，再根据一定规则，剪去那些不具有代表性的的子树或叶子节点（如使用子树中最频繁的类B代替整个子树）

CART分类算法

概念：使用Gini系数作为属性的选择标准，采用二元递归划分方法，构造二叉树

Gini系数

Gini系数：度量对某个属性变量测试输出的两组取值的差异性
对于节点t，G(t)越小越好（Gini系数越小不纯度越高）

G (t) = 1 - \sum_{j = 1}^{k} p^{2} (j | t) G (t) 是 节 点 t 的 G i n i 系 数 k 为 当 前 属 性 下 测 试 输 出 的 类 别 数 p (j | t) 为 节 点 t 中 样 本 测 试 输 出 取 类 别 j 的 概 率

$G(t)=1-\sum_{j=1}^{k}p^{2}(j|t) \\G(t)是节点t的Gini系数 \\k为当前属性下测试输出的类别数 \\p(j|t)为节点t中样本测试输出取类别j的概率$

节点在分枝条件ξ下的差异性损失 $\Delta G(\xi ,t)$ 越大越好（越大则节点越纯），即 $G_{\xi}(t)$ 越小越好

Δ G (ξ, t) = G (t) - G_{ξ} (t) G_{ξ} (t) = \frac{| S_{R} |}{| S_{L} | + | S_{R} |} G (t_{R}) + \frac{| S_{L} |}{| S_{L} | + | S_{R} |} G (t_{L}) Δ G (ξ, t) 为 条 件 ξ 下 t 节 点 的 差 异 性 损 失 ξ 为 节 点 t 的 一 个 属 性 分 支 条 件 ， 该 条 件 将 t 节 点 分 到 左 分 支 S_{L} 和 右 分 支 S_{R}

$\Delta G(\xi ,t)=G(t)-G_{\xi}(t) \\G_{\xi}(t)=\frac{|S_{R}|}{|S_{L}|+|S_{R}|}G(t_{R})+\frac{|S_{L}|}{|S_{L}|+|S_{R}|}G(t_{L}) \\\Delta G(\xi ,t)为条件\xi 下t节点的差异性损失 \\\xi 为节点t的一个属性分支条件，该条件将t节点分到左分支S_{L}和右分支S_{R}$

属性选择

计算每个属性在最佳取值划分下的差异性损失，选择差异性损失最大的属性作为节点，最大的不止一个属性时选择最先出现的属性
一个节点只能代表一个属性，一个属性只能出现在一个节点中（不管属性有多少类别取值）

属性的最佳划分：

数值属性：
1. 先升序排序
2. 取相邻数值的中间值作为分裂点，将样本分为两组
3. 选择Gini系数值最小的分裂点作为属性的最佳分裂点
分类属性：
1. 将属性的多类别合并成两个类别，形成超类
2. 选择Gini系数值最小的合并方式作为该属性的最佳超类划分

属性划分得到的决策树：

贝叶斯分类

概念：利用概率统计进行学习分类的方法
主要算法有：朴素贝叶斯分类算法、贝叶斯信念网络分类算法

原理

贝叶斯定理： $P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)}$

设数据集为D，对应属性集 $U=\{A_{1},A_{2},...,A_{n},C\}$ ， $A_{1},A_{2},...,A_{n}$ 是样本的属性变量，C是类标号属性变量，可取 $C_{1},C_{2},...,C_{m}$

则贝叶斯的作用是将样本X分配给 $C_{i}$ ，当且仅当 $P(C_{i}|X)>P(C_{j}|X)$ ， $(1\leq j \leq m,i\neq j)$
即求 $P(C_{i}|X)=\frac{P(X|C_{i})P(C_{i})}{P(X)}$ 的最大值，等价于求 $P(X|C_{i})P(C_{i})$ 的最大值
假设属性相互独立，即有 $P\left ( X\mid C_{i} \right )=P\left ( X_{1},X_{2},...,X_{n}\mid C_{i} \right )=\prod _{k=1}^{n}P(X_{k}\mid C_{i})$

步骤（伪代码）

 for j=1 to m
	计算X属于每一个类别Cj的概率P(X|Cj);
	计算训练集中每个类别Cj的概率P(Cj);
	计算概率值P(X,Cj)=P(X|Cj)P(Cj);
end for
选择概率值P(X,Cj)最大的Cj作为类别输出

*条件概率的Laplace估计

作用：处理条件概率 $P(X|C_{j})$ 为0或很小的情况

两种Laplace估计定义：

当存在某个条件概率很小时使用Laplace估计，让每个需要的计数加1，然后再计算每个条件概率
条件概率改变为：

P (X_{i} ∣ C_{j}) = \frac{n_{c} + l \times p}{n + l} n 是 类 C_{j} 的 训 练 样 本 总 数 ， n_{c} 是 类 C_{j} 的 训 练 样 本 中 属 性 变 量 A_{i} 取 值 为 X_{i} 的 样 本 数 l 是 称 为 等 价 样 本 大 小 的 参 数 ， p 是 用 户 指 定 的 参 数

$P(X_{i}\mid C_{j})=\frac{n_{c}+l \times p}{n+l} \\n是类C_{j}的训练样本总数，n_{c}是类C_{j}的训练样本中属性变量A_{i}取值为X_{i}的样本数 \\l是称为等价样本大小的参数，p是用户指定的参数$

ps：按照一般题目来看，可以有 $l=n$ ， $p=\frac{1}{l}$

*连续属性的解决方法

可以把连续属性离散化
可以假设连续的变量服从某种概率分布（如正态分布），可以用均值和方差来计算条件概率

*朴素贝叶斯分类算法的特点

优点：易于实现、大多数结果比较好
缺点：算法成立前提是假设各属性之间相互独立

k-最近邻分类算法（KNN）

概念：基于实例的学习算法，直接用训练集对数据样本进行分类，确定其类别标号

基本思想：对于未知类标号的样本，按欧式距离找出它在训练集中的k个最近邻，将未知样本赋予k最近邻中出现次数最多的类别号

算法步骤

设训练集D，测试集Z，最近邻数目为k
每个样本可以表示为 $(x,y)$ 的形式，即 $(x_{1},x_{2},...,x_{n},y)$
其中 $(x_{1},x_{2},...,x_{n})$ 表示样本的n个属性，y表示样本的类标号

对每个测试样本 $z=(x',y')\in Z$ ，计算z与每个训练样本 $(x,y)\in D$ 间的距离 $d=(x',x)$
选择离Z最近的k个近邻集合 $D_{Z}\in D$
得到 $D_{Z}$ 中样本的多数类的类标号作为结果

*KNN算法的特点

优点：思路简单，易于实现
缺点：对每个属性都要指定相同的权重；时间复杂度为 $O(n^{2})$

posted @ 2021-12-12 10:42 kksk43 阅读(182) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

kksk43

分类与回归

分类与回归

基于决策树分类

相关概念

构建决策树

决策树的属性选择

获得大小合适的树

节点划分

ID3分类算法

信息熵

信息增益

ID3建立决策树

*缺失值处理

*特点

C4.5分类算法

信息增益率

*处理数值型属性

*缺失值处理

*C4.5剪枝

CART分类算法

Gini系数

属性选择

贝叶斯分类

原理

步骤（伪代码）

*条件概率的Laplace估计

*连续属性的解决方法

*朴素贝叶斯分类算法的特点

k-最近邻分类算法（KNN）

算法步骤

*KNN算法的特点

公告

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

	for j=1 to m
	计算X属于每一个类别Cj的概率P(X\|Cj);
	计算训练集中每个类别Cj的概率P(Cj);
	计算概率值P(X,Cj)=P(X\|Cj)P(Cj);
	end for
	选择概率值P(X,Cj)最大的Cj作为类别输出