课程:《密码与安全新技术》
班级:1792班
姓名:刘霄
学号:20179223
上课老师:谢四江
上课日期:2018年5月24日
必修/选修:必修
学习总结
本次课程由赵旭营老师为我们讲解了有关模式识别的内容
一、模式识别的概念
- 人的模式识别能力
人通过视觉、嗅觉、听觉、味觉、触觉接收外界信息、再经过人脑根据已有知识进行适当的处理后作出的判别事物或者划分事物性质(类别)的能力
- 模式识别
用各种数学方法让计算机(软件和硬件)来实现人的模式识别能力,即用计算机实现人对各种事物或现象的分析、描述、判断、识别
模式
或者模式类
:可以是研究对象的组成成分或影响因素之间存在的规律性关系,因素之间存在确定性或随机性规律的对象、过程或者事件的集合。
识别
:对以前见过的对象的的再认识(Re-cognition)
模式识别
:对模式的区分与认识,将待识别的对象根据其特征归并到若干类别中某一类
常见的基本术语
样本(sample):
所研究对象的一个一个个体,通常有一组特征构成的向量来描述,也称样本向量
例:一辆某型号的奇安特自行车,可以用轮胎大小、是否有减震装置等特征来表示
样本集(sample set):
若干样本的集合
例:三辆奇安特自行车、五辆凤凰自行车、六辆飞鸽自行车
类或者类别(class):
在样本集上定义的模式类子集合,同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。
例:自行车:普通车、变速车、山地车、运动车
特征(feature)或者属性(attribute):
描述样本的若干观测值。多个特征或属性构造特征向量或者属性向量,通常与样本向量混用。
例:26英寸轮胎,人的身高与体重
已知样本(known sample):
事先知道类别的样本
未知样本(unknown sample):
类别标号未知的样本
注:两种样本的特征都是已知的
模式识别也可以看成是从特征向量向类别所作的映射
二、模式识别的主要方法
划分的原则
问题的描述方式
基于知识的模式识别方法:以专家系统为代表,根据人们已知的(从专家那里收集整理得到的)知识,整理出若干描述特征与类别间关系的准则,建立一定的计算机推理系统,再对未知样本决策其类别。
基于数据的模式识别方法:制定描述研究对象的描述特征,收集一定数量的已知样本作为训练集训练一个模式识别机器,再对未知样本预测其类别(主要研究内容)
######根据问题的划分
监督模式识别:先有一批已知样本作为训练集设计分类器,再判断新的样本类别(分类)
非监督模式识别:只有一批样本,根据样本之间的相似性直接将样本集划分成若干类别(聚类)
######根据理论基础的划分
统计模式识别:概率论与数理统计
模糊模式识别:模糊逻辑
人工神经网络:神经科学、最优化、概率论与数理统计
结构模式识别:形式语言
######根据应用领域的划分
图象识别:染色体分类、遥感图象识别
文字识别:中外文印刷体、手写体识别
数字识别:0-9印刷体、手写体识别,典型例子:邮政手写数字识别
人脸识别、指纹识别、虹膜识别、掌纹识别、语音识别
模式识别系统的典型构成
模式识别系统的四个主要组成部分:
原始数据获取与预处理
特征提取和选择
分类或者聚类
后处理
监督模式识别系统的典型框图
处理监督模式识别问题的一般步骤
######1.分析问题
针对具体的应用,分析是否可以转化成分类问题;
可能有那些类别;
已有的数据或者欲采集的数据中哪些因素或者特征与分类最具关联性。
######2.原始数据获取与预处理、特征形成
设计采集数据方式,获取原始数据,并进行预处理
从原始数据获取样本的原始特征
构造出已知样本集
原始数据的获取
通过各种传感器,将光或声音等信息转化为电信息,或者将文字信息输入计算机
信息可以分成:
一维波形:声波,心电图,脑电图等
二维图象:文字,图象等
物理量:人的身高、体重,商品的重量、质量级别等
逻辑量(0/1):有无、男女等
预处理
目的:去除噪声,增强有用的信息
常用技术:一维信号滤波去噪,图象的平滑、增强、恢复、滤波等
特征的形成
为每一个样本构造一个特征向量
######3.特征提取和选择
目的:从原始数据中,得到最能反映分类本质的特征
特征形成:通过各种手段从原始数据中得出反映分类问题的若干特征(有时需进行数据标准化)
特征选择:从特征中选取最有利于分类的若干特征
特征提取:通过某些数学变换,降低特征数目
######4.分类器设计
选定某一个分类器,用训练样本集对分类器进行训练,得到分类模型
######5.分类决策
利用一定方式对分类器进行性能评价
对未知样本经过观测、预处理、特征形成、特征提取与选择,构造特征向量,用已经设计好的分类器进行决策(预测);
必要时再根据问题的背景知识进行适当的后处理
非监督模式识别系统的典型框图
非处理监督模式识别问题的一般步骤
######1.分析问题:
针对具有的应用,分析是否可以转化成聚类问题;
可能或者希望得到的类别数;
已有的数据或者欲采集的数据中那些因素或者特征与聚类相关。
######2.原始数据获取与预处理、特征形成
设计采集数据方式,获取原始数据,并进行预处理
从原始数据获取样本的原始特征
构造出无类别标识的样本集(都是未知样本)
######3.特征提取和选择
为了更好地进行聚类,经常需要采用一定的算法对原始特征进行提取与选择。一般来说,针对聚类的提取与选择要比分类更困难
######4.聚类分析
选定某一个非监督模式识别方法,对样本集进行聚类分析。
######5.结果解释
考查聚类结果的性能;
分析聚类结果与研究问题之间的关系;
根据问题背景知识分析聚类结果的可靠性;
解释类的含义;
如果有新样本,可以采用就近原则进行进行分类。
模式识别关注的内容
1.特征选择与提取
2.分类器的设计与评估
3.聚类算法的设计与评估
统计模式识别——贝叶斯(Bayes)决策理论
Bayes决策理论欲解决的问题
举个简单例子,假设有一枚未知面值的硬币,我们来猜是多少钱的硬币。显然我们会猜测硬币出现的概率更大的面值。这就用到了贝叶斯决策中的先验概率(priori probability),即在没有对样本进行任何观测情况下的概率。接下来,我们可以增加一些观察值,比如硬币的重量。假设硬币重量记为x,然后计算已知重量的情况下属于不同类别的概率,这就是所谓的后验概率(posterior probability),分别记作。同样可以根据后验概率的大小判断类别。后验概率的计算就就需要用到贝叶斯公式:
其中,是先验概率,是联合概率密度,是两类硬币重量的总体概率密度,是第i类重量的概率密度,称作条件概率密度。利用贝叶斯公式,后验概率可以转化为先验概率与类条件概率密度的乘积,再用概率密度进行归一化(一般而言,总体密度对于各个类别是一样的,可以忽略分母)。先验概率可以根据两类硬币的流通比例来获得,类条件概率密度则需要对应类别一定数量的训练样本估计得到。
贝叶斯决策的几种常用标准:最小错误率准则、最小风险准则、最小最大决策准则。
######1.基于最小错误率的Bayes决策
利用概率论中的Bayes公式进行分类,可以得到错误率最小的分类规则
######2.基于最小风险的Bayes决策
在医学诊断上,有误诊(无病说有病)、漏诊。在雷达防空中,有虚警、漏警(有飞机说成无飞机)。这些错误判断会造成不同的后果和损失。
基于最小风险的Bayes决策是:在考虑各种错误可能造成不同的损失的情况下的Bayes决策规则
三、模式识别与智能系统
模式识别与智能信息处理
该方向致力于模式识别的基础理论及其在图象视频信号处理中的应用研究,运用数学和信息科学的理论与方法,从信息处理的角度,研究模式信息处理的机理、计算理论和算法,使计算机实现类似于人的视觉能力。研究数字图象和视频信息的检测、分析、传输、存储、压缩、重建等关键技术,在提出创新理论与算法的基础上,设计、研制和开发实用的高性能模式识别、图象视频处理以及医学图象处理的计算机应用系统。
计算智能与智能系统
本方向致力于生命计算学与人工智能系统的研究。生命计算学是计算智能概念的泛化,包括人工智能中的符号计算学和神经计算学,以及遗传算法、进化计算和DNA计算等;人工生命系统是智能系统概念的泛化,包括智能信息处理系统、智能控制系统、机器人、细胞自动机等。该方向致力于模拟自然生命系统中信息与控制的规律,特别是生命的自组织、自学习、自适应、自修复、自生长以及自复制的基本特性,以及感知、知觉、认知、判断、推理、思维等智能行为;以“计算”的形式表现智能,以人工生命系统实现智能,并将其应用于模式识别与图象处理、复杂动态系统建模、仿真与控制等领域。
智能信息与控制
控制论是“研究信息与控制一般规律的科学”,“信息与控制”是控制论的核心。在控制论思想中,“信息与控制”是生物系统和人工系统共有的特性,模拟生物智能,是控制论的基本思想。“信息”、“控制”、“智能”、“生命”四个基本的概念,构成了控制论科学的全部基础。“智能信息与控制”是研究自然生命与人工系统中信息与控制一般规律的科学。“智能信息与控制”方向以人工智能、控制论、系统论和信息论为理论基础,以计算机技术、电子技术和通讯技术为技术手段,以复杂演化系统为对象,类比自然生命与复杂演化系统中信息与控制的一般规律,研究面向复杂演化系统的智能控制原理和方法,并将这些规律、原理和方法应用于复杂系统的建模、仿真与控制。
智能控制理论、方法及其应用
该方向致力于具有多种复杂性和多级或分散信息结构的大规模控制系统研究。运用人工智能、计算智能(包括模糊逻辑、神经网络和进化计算)等理论与方法,结合现代控制理论(如鲁棒控制、自适应控制、变结构控制等),研究智能递阶、分散控制或优化调度系统。主要包括:基于模式分类、计算智能和知识工程方法的大规模复杂系统的综合集成建模;基于计算机视觉的生产过程质量监测与优化控制;基于知识和模拟进化方法的多分辨率建模及模型的聚合/解聚和平滑一致性转换技术;智能控制系统的结构性质(如稳定性、能控(能观)性、自主性等)的研究;智能系统的整体优化方法及自组织保优机制的研究;基于Agent技术的开放复杂巨系统的智能优化控制与决策;网络环境下的智能自动化理论与技术;基于现场总线技术的计算机控制与管理;离散事件和混杂系统的优化控制方法;在多种复杂性(如不确定性、非线性、参数时变、时滞等)融合条件下的非良定对象的知识基模型集成与智能优化控制策略和实现方法。
语音信号处理及应用
语音信号处理是当今信息科学研究领域中的一个重要分支,它是将数字信号处理与语音学相结合,解决现代通信领域中人与人之间、人与机器之间的信息交换问题。语音信号处理学科在世界范围内取得了飞速发展,无论是在基础研究领域还是在各个特定的应用领域都出现了许多新算法和高性能的系统,取得了大量突破性的进展。在硬件方面,随着计算机技术及DSP芯片的迅速更新换代,为各种日益复杂的语音处理算法的实时实现提供了可能性。在21世纪,这个研究领域的发展速度将更快,它与高速信息处理、传输和交换诸方面的关系将更加密切。本方向主要研究语音信号数字处理的新理论、新方法及其应用,如语音编码,语音识别,语音合成,语音增强和语音编码等,满足通信与信息技术应用领域对语音处理技术的需求。
问题与解决
一、模式识别策略的可公开?
先讲几个故事。人民币防伪技术一直是模式识别应用领域之一,而欺骗这些防伪措施一直是伪造集团的努力方向。我听说了几个例子。早期投币电话如何识别投币是何币种(硬币),据说(没有验证过,为相关公司人员提供)是通过投币之后落入内部的声音来判断。这个策略是抓住了不同币值的硬币在相同的条件下造成的声音差异来区分币种,是一种简单的必要条件识别法。据说一个聪明的学生偶尔有一次在北京学院路的一个投币电话上发现了这个规律,聪明的学生拿着一个录音机,播放类似的硬币掉落的声音,居然可以欺骗电话。当这个策略公开的时候,由于伪造的代价特别低,导致该方法的迅速失效。
故事还没有结束,后来又发明了称重法。就是内置一个尺寸测量加上称重装置,根据硬币的的大小和重量的范围,判断是不是硬币,是什么币种。这种方法就生命力好很多,但是依然没有解决真正的造假问题。假币集团发现硬币(一元硬币)内部是贵金属,于是他们就想法用廉价的铅替换内部的重金属,以较低的代价获得更高的价值,据说东南某省的一个造假作坊短期内就赚取了几百万。尺寸加重量也不能挡住造假的手段。于是,在后来的机器上,越来越多的传感器被装进去,包括磁性等,以获得越来越多硬币的各种物理和化学属性,达到识别的精确性。
在其他领域也存在类似的情况,影响最大的莫过于三聚氰胺事件。其主要原因在于牛奶的蛋白质含量的测量手段来自于一个拙劣而简单的测量方法,就是测量物质中的氮含量。其假设为牛奶,并且氮含量可以等效为蛋白质的含量。岂不知,氮含量高的物质不是蛋白质,而是三聚氰胺,一种与蛋白质毫无关系的化合物。
上述的例子在很多领域都有很多。这些例子都是一种以模式识别为核心的辨别方法或者测量方法,这些方法的共同特点是,采用一些简单的特征,在很强的前提假设下进行工作,一旦前提条件被打破,其结果就变得很可笑。这是模式识别方法共性问题。好比通信中的加密,几乎所有的模式识别方法类似于对称加密,加密算法不能公开,一旦被破解,就彻底失败。于是,通信加密中后来发明了今天广泛使用的非对称加密算法,秘钥的一部分是公开的,方法也是公开的,但是就是需要很高的代价或者能力才能破解。(理论上不存在不可以破解的密码)。模式识别未来的道路,也需要解决识别策略的可公开性。我们姑且将迄今为止的模式识别方法称为对称识别算法,只能保密,不能公开,未来非对称识别算法或许是一个新的方向。
二、模式识别结果的反馈性
模式识别被用在很多与人互动的领域,比如有无数关于汇率、股票和期货的研究,也不乏一些模式识别的方法在使用。在中国的今天,有无数人追着那些动荡不安的股票变化曲线,以期通过这些变化的曲线来琢磨出一些共性的规律。这是一种模式挖掘的方法,假如有一种方法,可以挖掘出股票市场的发展规律,那就立刻成为亿万富翁。但是这种情况还没有出现。为什么呢?这个可能就是识别结果的反馈性。一个单向的系统应用任何策略都没有问题,但是只要存在反馈,就需要考虑反馈带来的变化。
我们都知道,股票等金融数据呈现出混沌的特点,这是一个异常复杂的非线性动力系统,其外力项也是时刻变化,而且这个系统是不稳定的。主要原因在于任何一种对历史数据有稳定获利的策略一旦公开,当所有人都采用类似的技巧的时候,这个策略就会被破坏。因为无论是系统内在行为发生了改变,而且外力也发生了变化。因此,对于金融这样的有人参加的活动,任何可套利的方法或者行为都只能是私密存在,不能公开。所以索罗斯等所谓金融大鳄的所谓技巧只能欺负欺负技能不对称的人群,如第三世界国家,在美国效果就差不少。
当然,这个问题也不完全如此。也存在一些人类行为的共性规律,比如人性的贪婪,社会阶段等诸多共性因素,这些因素可以造成长期可预期的一些规律,这些规律不是简单的模式识别可以解决,还需要深入的研究。一些所谓战略投资结构更加重视这些长远的短期内不大容易变化的趋势。
所有这些问题都涉及一个问题,一个系统采用机器学习,如果系统的输入随着输出的结果变化,这是一种带反馈的机器学习问题。这样带反馈的模式识别方法还没有见到很好的研究。也有一些研究在线学习的,但是其能力要弱得多。毕竟短时间内很难获得很大量的数据,不能用复杂的策略进行识别,难免就有很多的缺点。
三、模式识别应用的普适性
模式识别总的来说是建立在大数定律基础上的,只能代表大多数。好比高斯分布,只考虑中间部分,两边都由于噪声的问题无法考虑。可是这就带来一个问题,对于社会管理,大多数问题往往并不是难题,只有少数问题才是难题,而这些问题恰恰落在了边界的地方。前面我写过一篇文章说,杰出者总是例外,说的就是这个道理。当我们采用机械的模式识别策略去解决社会问题的时候,我们可能既不能避免最坏的情况,也可能失去了最好的情况。
我们看到很多研究历史长期规律的课题,不管是天气,还是环境,还是社会,都遇到类似的尴尬。我们总是觉得过去的规律研究很清楚了,但是移植到现在依然不能解决问题。历史可以告诉未来,但是这些还都停留在一些否定式的答案中。还没有一个规律是正确无疑并且可以随时拿来所用的。
用现代模式识别的观点看,中医是不可思议的。因为在任何中医的书上都看不到大数据,大多数情况下最多描述几个病例。我们也都知道,这种列举的例子并不能作为普适方法的基础。即便是西医,也遇到临床上的困难,一个简单的西药,尤其是单方,我们可以通过设定一定数量的临床试验来证明该药作为主要因素的价值,可是类似中药这样的非常复杂的多组分药要想通过同样数量的临床试验来证明,就非常困难。这是中医和中药留给机器学习人的一个挑战。美国的FDA正为此而烦恼。
模式识别是用机器模仿人类的一种方法,尽管取得了很大程度的进步,但是就过去短短几十年的发展,还不能说就很完善。未来的前景可能是这样的,如果把模式识别作为盾来用,就不要指望这个盾是廉价的。如果把模式识别作为矛来用,就不要指望这个矛能一直有效,必须不断地升级。最终的结局是矛和盾的代价都很大,才可能获得相应的平衡。这就意味着未来模式识别的发展方向是复杂化和高代价化,否则一旦泄密,就可能存在着廉价的攻击方法。其次,对于带反馈的系统的研究会是下一个热点,研究如何应对反馈而不让系统的性能下降或许是值得的,否则模式识别只能应用于类似于生产线这样的机械系统,而不能用于智能系统中。最后,要想解决更复杂的问题,模式识别还不能过于依赖数据,还需要像人一样,通过少数典型的例子进行合理的外推。这是智慧的表现,所谓举一反三是人类的特权,模式识别如果能做到举一反三,那才可以说到了一定的高度。