哈尔滨工业大学计算机学院-模式识别-课程总结-知识点汇总
知识点汇总
以下所有知识点是我在期末复习过程中自己整理的,采用相似算法对比分析的方式进行总结。
-
从判别函数的角度分析判别函式模型与生成式模型;
- 根据判别函数的输出来决定待识别模式属于哪个类别,这类方法所采用的模型称作判别式模型。而对于生成式模型,以贝叶斯分类器为例,不能构造区分不同类别的判别函数,而是考察待识别模式由不同类别所产生的概率,根据不同类别产生该模式的概率大小来决定他的类别属性。(参照《模式识别》158页)
-
最大似然估计与贝叶斯估计:
- 贝叶斯分类器可以通过计算先验概率(比较简单)与类条件概率来设计最优分类器,贝叶斯分类器需要解决的关键问题就是对类条件概率的估计,但实际上难以得到有关问题的概率结构全部知识,往往就是类条件概率,是概率密度函数。因此需要参数估计方法与非参数估计方法。贝叶斯分类器实际是类条件概率密度函数的估计,描述样本的内在规律与个体差异。
- 最大似然估计与贝叶斯估计都属于参数估计方法,假定了概率密度函数后需要估计分布的参数。二者在参数估计完成后,都使用后验概率作为分类准则。
- 最大似然估计把待估计的参数看作是确定性的量,只是取值未知,最佳估计就是使得产生已观测到的样本的概率为最大的那个。(通过建立似然函数,求得似然函数的最优解,确定最有可能产生训练样本集合作为参数的最大似然估计)
- 贝叶斯估计则把待估计的参数看成是符合某种先验概率分布的随机矢量。对样本D进行观测的过程,就是把 先验概率密度 转化为 后验概率密度,这样就利用样本信息修正了对参数的初始估计值。(利用训练样本集合估计出参数矢量的分布,而在识别时需要考虑所有可能参数产生待识别样本的平均值,也可以是积分)(看PPT),优点是在小样本集条件下的估计准确率。
-贝叶斯估计的识别过程是类条件概率密度的计算,学习过程是参数后验概率密度的估计。
-
参数化方法与非参数化方法(模式分类84页):
- 对于概率密度函数的估计大致可以分为两类:参数估计法和非参数估计法。这两种方法最主要的区别在于是否需要知道概率密度函数的分布形式。
- 参数化方法,需要对每个类别样本的分布情况具有一定先验知识,假定类条件概率密度是某种形式的分布函数。该概率密度函数由一组参数决定,最后利用已知的训练样本集合估计出具体的分布参数。
- 非参数化方法不需要对类条件概率密度的分布形式做出假设,而是直接利用训练样本集合对概率密度函数做出估计,也就是省略概率估计,直接计算后验概率,即设计判别函数。能够处理任意概率分布,不必假设形式。K近邻法就是直接估计每个类别的后验概率。
-
PCA与FDA:
- PCA和FDA的方法,将样本向一个特定的线性子空间进行投影,从而实现对特征维数进行压缩的目的,但是二者出发点不同。
- PCA不考虑样本的类别属性,以样本信息损失最小为目标,按照均方误差最小准则来寻找最优的投影子空间。具体做法是首先计算样本的协方差矩阵,以及该矩阵的特征值与特征向量,然后选择对应最大特征值的若干个特征向量,构成最优子空间基矢量。由于没有考虑样本的类别信息,因此PCA只是对样本信息保留意义下的最优投影子空间,而对类别的可分性信息的保留则不是最优,可能降维后丢失可分性信息。PCA的基向量具有正交性,不相关性,特征值。
- FDA寻找的是使得类别可分性最强意义下的最优投影子空间,在增大类别之间距离的同时缩小同类样本的距离,具体做法是首先计算类别的类内散度矩阵\(S_w\)和类间散度矩阵\(S_b\),然后计算矩阵\(S_w^{-1}S_b\)的特征值和特征向量,选择对应大特征值的若干个特征向量构成投影子空间的基矢量,FDA存在的问题是非零特征值的个数最多只有类别数减1个。FDA不具有正交性。
-
广义线性判别函数与支持向量机:
- 广义线性判别函数分类器属于线性分类器的非线性推广,SVM本身属于线性分类器,但是加入核函数之后也进行了非线性推广。(两种常用的非线性分类器是多层感知器网络与SVM)
- 广义线性判别函数,将原始特征通过一个非线性映射,映射到一个高维空间,然后在高维空间中构造线性判别函数,使得低维特征空间下的非线性可分问题,有可能变成高维空间的线性可分问题,其在高维空间得到的线性判别函数对应于低维空间的非线性判别函数。广义线性判别函数的问题有:阶数问题,很难确定告判别函数的阶数;维数问题,当原始特征维数较大时,会造成维数灾难。
- 非线性SVM采用与广义线性判别函数相同的思路来实现非线性判别,不过利用了一种巧妙的方式,核函数,避免了直接在高维特征空间中计算,这样即使对于特别高维的特征空间,避免维数灾难的问题,也可以有效地进学习和实现非线性判别。特征空间中的两个矢量的内积可以通过定义输入空间中的核函数直接计算得到。不过其应用条件是核函数能对应于特征空间的内积,而且识别过程不需要计算特征矢量空间本身,只是需要计算特征矢量空间的内积。
-
聚类分析的主要思想,以及聚类分析存在的主要问题:
- 聚类分析属于无监督学习,将没有类别标记的一组样本划分为若干子集,每个子集内样本具有相似性,而不同子集的样本之间具有差异性。从理论上讲,聚类分析可以看作是一个混合密度估计问题。
- 聚类分析的主要问题在于虽然可以对聚类结果提出某种评价准则,如误差平方和准则、散布准则,但对这些准则的优化确实是一个组合优化问题,穷举法属于NP问题,穷举计算不现实。目前只能采用次优的迭代算法,通过随机初始化,不断迭代使得准则函数减小,直到收敛,但是不能保证收敛于最优解。同时聚类结果受到算法初始值影响严重、距离函数选择的影响。并且某些聚类问题还有可能是不可辨识问题。
-
感知器算法与LMSE
- 感知器是算法以错分样本到判别界面距离之和作为准则。
- 最小均方误差算法将不等式组求解转化为方程组的求解,以解得误差矢量的长度平方最小准则。
- 感知器算法的特征是当样本集合线性可分时算法收敛,但样本不可分时算法无法收敛,一般来说算法收敛速度较慢。
- 最小均方误差算法当样本不可分时也能收敛于均方误差最小解,当样本数区域无穷时以均方误差逼近贝叶斯判别函数,但是当样本线性可分的时候,可能无法得到最优判别界面。
-
SVM的基本思想,并说明SVM可以实现最优线性分类器的原因
- 支持向量机是在所有能够将两类样本分开的线性分类界面中寻找一个最优判别函数,使得分类超平面距离两类样本最远。支持向量机的优化准则可以使得分类器的VC维降低,使得其泛化能力达到最大,因此是最优的线性分类器。