一、学习笔记

经过几周的学习,对模式识别和机器学习有了初步的了解。
模式识别是根据已有知识的表达,针对待识别模式,判别和决策期所属的类别或预测其回归值。一般分为回归和分类。
几类分类器的特点:

MED分类器



在高维空间中,该决策边界是一个超平面,且该平面垂直且二分连接两个类原型的线。
MED分类器采用欧式距离作为距离度量,没有考虑特征变化的不同以及特征之间的相关性。(对角线元素不相等:每维特征的变化不同。非对角元素不为0:特征之间存在相关性。)
解决方法:去除特征变化的不同以及特征之间的相关性。
将原始特征映射到一个新的特征空间,使得在新的看空间中特征的协方差矩阵为单位矩阵,从而去除特征变化的不同以及特征之间的相关性。
特征转换分为两步:

  • 先去除特征之间的相关性,(解耦)
  • 再对特征进行尺度变换(白化),使每维特征的方差相等。

MICD分类器

MICD分类器的缺陷是会选择方差较大的类。

MAP分类器

判别式:

在方差相同的情况下,MAP决策边界偏向先验可能性较小的类,即分类器决策偏向先验概率高的类。
在方差不同的情况下,MAP分类器倾向选择方差较小(紧致)的类。
MAP分类器可以解决MICD分类器存在的问题。

贝叶斯分类器

在MAP分类器的基础上,加入决策风险因素,得到贝叶斯分类器。

  • 给定一个测试样本x,贝叶斯分类器选择决策风险最小的类。

贝叶斯分类器的决策目标:最小化期望损失。(对每个测试样本选择风险最小的类。)

最大似然估计

贝叶斯估计

KNN估计

训练样本个数N越大,k取值越大,概率估计的越准确。

  • 优点:可以自适应的确定x相关的区域R的范围。
  • 缺点:KNN概率密度估计是不连续函数。
    不是真正的概率密度表达,概率密度函数积分是无穷大而不是1。

二、人工智能领域的前沿技术介绍、展望、应用,我们国家的先进或不足,存在的卡脖子技术等(选取一种技术方向即可)

现阶段人工智能技术发展特点

经历了60多年的发展后,人工智能已经开始走出实验室,进入到了产业化阶段。

  • 深度学习技术逐渐在各领域开始应用
    深度学习通过构建多隐层模型和海量训练数据,来学习更有用的特征,最终提升分析准确性。深度学习自2006年由Jeffery Hinton实证以来,在云计算、大数据和芯片等的支持下,已经成功地从实验室中走出来,开始进入到了商业应用,并在机器视觉、自然语言处理、机器翻译、路径规划等领域取得了令人瞩目的成绩。

  • 新型算法不断探索
    在深度学习应用逐步深入的同时,学术界也在继续探索新的算法。一方面,继续深度学习算法的深化和改善研究,如深度强化学习、对抗式生成网络、深度森林、图网络、迁移学习等,以进一步提高深度学习的效率和准确率。另一方面,一些传统的机器学习算法重新受到重视,如贝叶斯网络、知识图谱等。另外,还有一些新的类脑智能算法提出来,将脑科学与思维科学的一些新的成果结合到神经网络算法之中,形成不同于深度学习的神经网络技术路线,如胶囊网络等。

  • 基础数据集建设已经成为基本共识
    自从李飞飞等在2009年成功创建ImageNet数据集以来,该数据集就已经成为了业界图形图像深度学习算法的基础数据集,通过举办比赛等方式极大地促进了算法的进步,使得算法分类精度已经达到了95%以上。这也使得一些大型研究机构和企业逐渐认识到了数据的价值,纷纷开始建立自己的数据集,以便进行数据挖掘和提升深度学习模型的准确率。如美国国家标准研究院的Mugshot、谷歌的SVHN、微软的MS COCO等图像基础数据集,斯坦福大学的SQuAD、卡耐基梅隆大学的Q/A Dataset、Salesforce的WikiText等自然语言数据集以及2000 HUB5 English、CHiME、TED-LIUM等语音数据集。

  • 新型计算基础设施陆续成为产业界发展目标
    由于深度学习对算力有较高的需求,因此相继出现了一些专门的计算框架和平台,如伯克利大学的Caffe、微软的CNTK、Facebook的Torch、亚马逊的MXNet、百度的 PaddlePaddle等,尤其是谷歌的TensorFlow能够支持异构设备的分布式计算,其平台API能力已经覆盖了CNN、RNN、LSTM等当前最流行的深度神经网络模型。除了从计算框架软件平台进行研发之外,产业界同时也从硬件方面探索计算能力的提升方法。最为直接的方法就是采用计算能力更强的GPU替代原有的CPU等。此外,谷歌、IBM等一些大型企业在大量采用GPU的同时,也在探索进行符合自身计算环境的芯片研发,从而进一步降低成本、提高效率,因此产生了TPU等性能更加卓越的新型芯片。

我们国家的先进或不足

  • 我国现在主要集中在应用层,主要在深度学习和计算机视觉方面较领先
    例如百度的自动驾驶代码也震惊了世界。

  • 我国人工智能的原创性理论基础不强,重大原创成果不足;
    在基础理论、核心算法以及关键设备、高端芯片、重大产品与系统、基础材料、元器件、软件与接口等方面,与以美国的人工智能发达国家相比还存在较大差距。人工智能产业结构布局也还不完善,人工智能人才队伍,特别是尖端人才不能满足发展需求等。

  • 主流技术深度学习还具有较大局限性
    一是在有限样本和计算单元的情况下,对复杂函数的表示能力有限,其针对复杂分类问题的泛化能力受限。二是通过深度学习是一种基于概率统计的算法,机器系统学习到的是大概率内容,不是知识,无法像人类一样进行举一反三的应用。三是深度学习存在黑箱问题,不能解释其自身做出决策的原因。