《模式识别》自学笔记——(二)基于统计的模式识别

模式识别中的两大方法

解决模式识别问题的方法主要归纳为基于知识的方法和基于数据的方法两大类。

基于知识的方法,主要是以专家系统为代表的方法。其基本思想是根据人们已知的关于研究对象的知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,对未知样本通过这些知识推理决策类别。以专家系统为例,专家系统的组成部分包括用户界面、推理机和知识库,用户界面用于获取用户的输入并将结果返回给用户;推理机是专家系统的大脑,包含解决特定问题的规则,当试图回答用户的查询时,它选择要应用的事实和规则。它为知识库中的信息提供了推理;知识库是事实的储存库,它存储有关问题域的所有知识,它是从某一特定领域的不同专家那里获得的。

基于数据的方法,在确定了描述样本所采用的知识之后,这些方法并不是依靠人们对所研究对象的认识来建立分类系统,而是搜集一定数量的已知样本,用这些样本作为训练集来训练一定的模式识别机器,使之在训练后能够对未知样本进行分类。

 

基于数据的方法是模式识别的主要方法,在无特别说明的情况下,人们说模式识别通常就是指这一类方法。

基于数据的模式识别的基础是统计模式识别,即依据统计的原理来建立分类器,通常人们说模式识别方法主要是指统计模式识别方法。该方法适用于我们已经知道对象的某些特征与类别是有关系,但无法确切描述这种关系的情况,如果类别和特征之间的关系可以被描述出来,那么采用基于知识的方法可能会更好。而如果二者之间的关系完全随机,不存在规律,那么应用模式识别也无法得到有意义的结果。

 

监督模式识别与非监督模式识别

在模式识别问题中,如果我们的训练样本数类别已知,那么使用该样本训练分类器的方法属于监督学习,称为监督模式识别。即我们训练过程中是有“导师的”。

在一些儿童智力游戏中,如将数字1,2,7,8划分为最合理的几组,我们可以根据数字的奇偶性分为(1,7)和(2,8)两组,也可以根据数字的大小分为(1,2)和(7,8)两组,对于类似的模式识别问题,我们事先并不知道要划分的是什么类别,更没有类别已知的样本用作训练,甚至我们不知道有多少类别,我们所要做的就是根据样本特征将样本聚为几类,使属于同一类的样本在一定意义上是相似的,而不同类之间的样本则有较大差异。这就是非监督模式识别,在统计中通常称为聚类。

对于非监督模式识别,采用不同的方法和不同的假定可能会导致不同的结果,要评价哪种结果更可取或更符合实际情况,除了一些衡量聚类性质的一般准则外,往往还需要对照该项研究的意图和在聚类结果的基础上后续的研究来确定。聚类结果只是数学上的一种划分,对应用的实际问题是否有意义,有什么意义需要结合更多的专业知识进行解释。

 

posted @ 2019-07-12 10:10  陈诚诚  阅读(762)  评论(0编辑  收藏  举报