机器学习笔记
第一章:机器学习概述
人工智能主要包括感知智能(比如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理)。它的核心是数据驱动来提升生产力、提升生产效率。
机器学习相关技术属于人工智能的一个分支。其理论主要分为如下三个方面:
-
传统的机器学习:包括线性回归、逻辑回归、决策树、SVM、贝叶斯模型、神经网络等等。
-
深度学习(Deep Learning):基于对数据进行表征学习的算法。好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
-
强化学习(Reinforcement Learning):强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。
监督学习:训练数据中有我们想要预测的属性,也就是说对每一组 输入 数据,都有对应的 输出。问题可以分为两类:
- 分类问题:数据属于有限多个类别,希望从已标记数据中学习如何预测未标记数据的类别。
例子:手写数字、字母的识别 - 回归问题:每组数据对应的输出是一个或多个连续变量。
例子:是根据鲑鱼长度作为其年龄和体重。
无监督学习:训练数据无对应的输出值。例子:数据聚类、降维。
特征向量:
数据集一般需要分割为训练集和测试集。划分方法如下
留出法
直接将数据集划分为两个互斥的集合,2/3-4/5。
划分原则:划分过程尽可能保持数据分布的一致性
方法缺陷:训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。
交叉验证法
将数据集划分为k个大小相似的互斥子集,每个子集轮流做测试集,其余做训练集,最终返回这k个训练结果的均值。
优点:更稳定,更具准确定;
缺点:时间复杂的较大
第二章:基于距离的分类器
概述
2.1med分类器
med分类器
2.2特征白化
白化的目的:
将原始特征映射到一个新的特征空间,使得在新空间
中特征的协方差矩阵为单位矩阵,从而去除特征变化
的不同及特征之间的相关性。
输入数据集X,经过白化处理后,新的数据X'满足两个性质:
(1)特征之间相关性较低;
(2)所有特征具有相同的方差。
鸢尾花实验的白化使用的是PCA方法,此处不再赘述。
特征解耦
2.4MICD分类器
概念
二分类时当Σ1、Σ2是任意值时,MICD的决策边界是一个超抛物面或者超双曲面
MICD分类器的缺陷是会选择方差较大的类。
半个课程下来,目前还停留在理论阶段,概率论倒是还记得,高数和线代半斤八两,机器学习是门实践和理论结合密切的学科,网上查阅资料文献的时候,看到
对于此前不是机器学习/深度学习这个领域的朋友,不管此前在其他领域有多深的积累,还请以一个敬畏之心来对待。
持续的投入:三天打鱼两天晒网的故事,我们从小便知,不多说了;
系统的学习:一个学科,知识是一个体系,系统的学习才可以避免死角,或者黑洞;
大量的练习:毕竟机器学习/深度学习属于Engineering & Science的范畴,是用来解决实际的问题的。单纯的理论研究,如果没有实际的项目(包括研究项目)经验做支撑,理论可能不会有很大突破。
第三章贝叶斯决策与学习
3.1贝叶斯决策和MAP分类器
后验概率 p(Ci|x)
表达给定模式 x 属于类 Ci 的概率。
模式 x 属于类 Ci 的后验概率计算公式为:
MAP分类器:将测试样本决策分类给后验概率最大的那个类。
对于二分类问题,MAP分类器的决策边界:
单维空间:通常有两条决策边界。
高维空间:复杂的非线性边界。
3.2决策风险和贝叶斯分类器
决策风险的概念:不同的决策错误会产生程度不同的风险。
贝叶斯分类器:
选择决策风险最小的类。
3.4最大似然估计
定义:
-
待学习的概率密度函数记为
p(x | θ)
,θ 是待学习的参数。 -
给定的 N 个训练样本都是从
p(x | θ)
采样得到的,且满足iid条件,则所有样本的联合概率密度(似然函数)为:
-
因此,学习参数 θ 的目标函数可以设计为:使该似然函数最大。
3.6贝叶斯估计
贝叶斯估计:给定参数 θ 分布的先验概率以及训练样本,估计参数 θ 分布的后验概率。
θ 的后验概率:
3.8KNN估计
给定 N 个训练样本,在特征空间内估计每个任意取值 x 的概率密度,即估计以 x 为中心,在极小的区域 R = (x, x+δx)
内的概率密度 p(x)
其中 k 为落入区域 R 的样本个数,V 为区域 R 的体积。
直方图
直方图也是基于无参数概率估计的基本原理:p ≈ k/(NV)
将特征空间划分为 m 个区域R。
给定任意模式,先判断它属于哪个区域,p(x) = ki/(NV), if x ∈ Ri
优点:
- 固定区域 R:减少由于噪声污染造成的估计偏差。
- 不需要存储训练样本。
缺点:
- 固定区域 R 的位置:如果模式 x 落在相邻格子的交界区域,意味着当前格子不是以模式 x 为中心,导致统计和概率估计不准确。
- 固定区域 R 的大小:缺乏概率估计的自适应能力,导致过于尖锐或平滑。
第四章线性判距与回归
4.1-4.2基本概念
- 生成模型:给定训练样本
{𝒙𝑛}
,直接在输入空间内学习其概率密度函数𝑝(𝒙)
。- 在贝叶斯决策分类中,生成模型通常用于估计每个类别的观测似然概率
𝑝(𝒙|𝐶𝑖)
,再结合先验概率得到联合概 率𝑝(𝒙,𝐶𝑖) = 𝑝(𝒙|𝐶𝑖)𝑝(𝐶𝑖)
。然后,对所有类别进行积分,得到边缘概率密度函数𝑝 (𝒙) = Σ𝑖 𝑝(𝒙, 𝐶𝑖)
。最后,得到后验概率𝑝(𝐶𝑖|𝒙)
。
- 在贝叶斯决策分类中,生成模型通常用于估计每个类别的观测似然概率
- 判别模型:给定训练样本
{𝒙𝑛}
,直接在输入空间内估计后验概率
𝑝(𝐶𝑖|𝒙)
。- 在分类任务中,后验概率分布
𝑝(𝐶𝑖|𝒙)
相当于直接从输入样本𝒙映射
到类别输出𝐶𝑖
的判别函数𝑓(𝒙)
,即判别模型。
- 在分类任务中,后验概率分布
- 线性判距
- 如果判别模型
𝑓(𝒙)
是线性函数,则𝑓(𝒙)
为线性判据。 - 可以用于两类分类,决策边界是线性的。
- 也可以用于多类分类,相邻两类之间的决策边界也是线性的。
- 如果判别模型
- 参数空间&解域
- 参数空间:由各个参数维度构成的空间,参数的每个可能解相当于是参数空间的一个向量。
- 解域:在参数空间内,参数的所有可能解所处的范围。
- 目标函数的求解:最小化/最大化目标函数。
✓ 涉及优化技术。
✓ 解析求解:求关于训练参数的偏导,并设置偏导为0.
✓ 迭代求解:先猜测参数初始值,然后不断的根据当前计算得到的更新值迭代更新参数
4.3-4.4并行与串行感知机(略)
4.5fisher线性判距
原理:找到一个最合适的投影轴,使两类样本在该轴上投影的重叠部分最少,从而使分类效果达到最佳。最佳标准之一:投影后,使得不同类别样本分布的类间差异尽可能大,同时使得各自类内样本分布的离散程度尽可能小
目标函数:
算法训练过程:
4.6支持向量机
设计思想给定一组训练样本,使得两个类中与决策边界最近的训练样本到决策边界之间的间隔最大
4.7-4.8拉格朗日乘数法和对偶问题
支持向量机的目标函数是一个条件优化问题(Constrained
Optimization)。拉格朗日乘数法(Lagrange Multiplier)是常用的解决
该类问题的方法。
函数在等高面上任意一点的梯度方向与其等高面(切线方向)正交,且朝向(即正方向)函数值较高的方向。 𝑓(𝒙)的极值点𝒙∗
必须位于曲线𝑔(𝒙)= 0
上。 搜寻极值点𝒙∗
:沿着𝑔(𝒙)= 0
的切线方向、向着𝑓(𝒙)
负梯度方向移动。当出现沿着切线方向、无法再向𝑓(𝒙)
负梯度方向移动时停止
此时,在该点,𝑓(𝒙)
等高线与𝑔(𝒙)=0
相切,即𝑓(𝒙)
与𝑔𝒙)
梯度方向在同一直线上,该点为𝑓(𝒙)的极值点𝒙∗
。
𝑓(𝒙)
与𝑔(𝒙)
的梯度记作𝛻𝑓(𝒙)和𝛻𝑔(𝒙)。如果是等式约束,在极值点𝒙∗
上, 𝛻𝑓(𝒙∗)
和𝛻𝑔(𝒙∗)
的方向必然平行,可能同向或反
向,梯度的幅值可能不同。
对偶问题和原问题的关系:
设对偶问题的最优值为 d,主问题的最优值为 p,对于所有的优化问题都存在 d* <= p*
(弱对偶性)
强对偶性:d* = p*
成立条件(在可行域至少有一点使得不等式约束严格成立):
f(x)
是凸函数g(x)
是凸函数h(x)
是仿射函数
4.9支持向量机学习算法
步骤:
-
构建拉格朗日函数
-
构建对偶函数
- 针对
ω
和ω0
求解最小化 - 在极值点计算
||ω||22
- 在极值点得到
𝐿𝐷
- 针对
-
对偶函数的求解
-
求解支持向量
-
获得参数最优解
ω
和ω0
课后小结:
给这门课打分的话,可以有9.5分,课时安排得很紧凑,学习的时候挺连贯的,后面的鸢尾花实践课也安排得很及时,正愁理论与实践没法结合起来,唯一的扣分点可能是分数设置有点零散,要弄太多东西了,有点软工那味了。