机器学习笔记

机器学习笔记

第一章 模式识别基本概念

模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值,本质上是一种推理过程;从数学角度来看,它可以被看做一种函数映射。


模式识别可以划分为“分类”和“回归”两种形式:
分类:输出量是离散的类别表达,即输出待识别模式所属的类别,分为二类或多类。
回归:输出量是连续的信号表达,输出量是单个或多个维度。
回归是分类的基础,离散的类别值是由回归值做判定决策得到的。

输入空间:原始输入数据x所在的空间,其维度构成输入空间维度。
输出空间:输出的类别/回归值y所在的空间,类别的个数构成回归值的维度。

模型:用于分类,广义上的模型包括特征提取、回归器、判别函数,而狭义上的模型没有判别函数。
分类器由回归器和判别函数组成。

判别函数:使用一些特定的非线性函数来实现,通常记为函数g,通常判别函数固定,所以不把它归于模型的一部分。
sign函数用来进行二类分类max函数用来进行多类分类
特征:可以用于区分不同类别模式的、可测量的量,输入数据也可以看作原始特征表达。特征具有辨别能力,提升不同类别之间的识别性能。

鲁棒性:针对不同的观测条件,仍能够有效表达类别之间的差异性。

特征向量:多个特征构成的列向量,可以表达为模长x方向。

模型使用机器学习技术来得到,那么怎样进行机器学习?
(1)需要训练样本

(2)学习模型的参数和结构

其中模型有线性模型和非线性模型


(3)利用训练样本,定义目标函数,使用优化算法来解出一组最优参数作为模式识别的模型

基于学习方式的分类
(1) 监督学习(有导师学习):输入数据中有导师信号,以概率函数、代数函数或人工神经网络为基函数模型,采用迭代计算方法,学习结果为函数。
(2) 无监督学习(无导师学习):输入数据中无导师信号,采用聚类方法,学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等。
(3) 强化学习(增强学习):以环境反惯(奖/惩信号)作为输入,以统计和动态规划技术为指导的一种学习方法。

训练集和测试集

训练误差和测试误差

泛化能力:学习算法对新模式的决策能力。

泛化能力低会出现过拟合

提高泛化能力:正确选择模型;正则化。

评估方法:
(1)留出法
直接将数据集划分为两个互斥的集合,2/3-4/5。
划分原则:划分过程尽可能保持数据分布的一致性
方法缺陷:训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。
(2)交叉验证法
将数据集划分为k个大小相似的互斥子集,每个子集轮流做测试集,其余做训练集,最终返回这k个训练结果的均值。
优点:更稳定,更具准确定;
缺单:时间复杂的较大

性能指标
精度、召回率


F-score

混淆矩阵

PR曲线

ROC曲线




第二章 基于距离的分类器

MED分类器:把测试样本到每个类之间的距离作为决策模型,将测试样本判定为与其最近的类。
类的原型:
(1)将均值作为类的原型

(2)选取最近邻作为类的原型

距离度量的三种方式

最小欧氏距离(MED)分类器

特征正交白化的目的


特征转换分为两步:去除特征间的相关性(解耦),再对特征进行尺度变换(白化),使得每维特征的方差相等。

解耦过程



白化过程

最小类内距离(MICD)分类器:基于马氏距离的分类器

MICD的决策边界






第三章 贝叶斯决策与学习

概率的观点

后验概率:用于分类决策

贝叶斯规则

最大后验概率(MAP)分类器

MAP分类器的决策边界

高斯观测概率


高斯观测概率的决策边界



MAP分类器可以解决MICD分类器存在的问题:

MAP的决策风险

损失的概念

决策风险评估

贝叶斯(Bayes)分类器:MAP+决策风险因素

bayes决策的期望损失

朴素贝叶斯分类器

监督式学习

参数估计方法:
(1)最大似然估计


最大似然估计偏差

(2)贝叶斯估计

无参数估计

K近邻(KNN)估计

KNN分类器

直方图估计

核密度估计





第四章 线性判据与回归

生成模型


判别模型


线性判据




寻求最优解————参数空间&解域

如何找到最优解
(1)设计目标函数

(2)目标函数的求解

(3)加入约束条件

根据目标函数的不同,我们可以设计不同的线性判据算法
感知机算法:预处理

并行感知机:目标函数

梯度下降法


并行感知机:参数更新

并行感知机:算法流程

如果训练样本是一个一个串行给出的,需要用到串行感知机


收敛性:若训练样本线性可分,则串行、并行感知机理论上收敛于一个解。

加入margin约束,修正边界决策稳定性

Fisher线性判据


Fisher线性判据:目标函数

支持向量机



支持向量机的目标函数是条件优化问题,使用拉格朗日乘数法可以得到优化问题的最优解


posted @ 2020-05-05 21:46  梦幻魅羽  阅读(234)  评论(0编辑  收藏  举报