第一次个人作业

#学习小结

模式识别中的基本概念。

基于距离的分类器,MED分类器,会受到不同特征尺度的影响。MIED分类器,会倾向于方差较大的类。

根据贝叶斯公式的MAP分类器,解决了MIED存在的问题,会倾向于方差较小的类。学习了高斯观测概率的MAP分类器。决策目标是最小化误差概率。

MAP分类器加上考虑决策风险,就是贝叶斯分类器。决策目标是最小化决策风险。

贝叶斯决策的观测概率和先验概率要通过机器学习得到,参数估计可以用最大似然估计和贝叶斯估计。

#机器学习前沿技术

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,它是人工智能的核心,是使计算机具有智能的根本途径。

机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉模式识别等许多领域也得到了广泛应用。

机器学习的研究主要分为两类研究方向:

第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;传统机器学习的研究方向主要包括决策树随机森林人工神经网络贝叶斯学习等方面的研究。

第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。

大数据的价值体现主要集中在数据的转向以及数据的信息处理能力等等。在产业发展的今天,大数据时代的到来,对数据的转换,数据的处理数据的存储等带来了更好的技术支持,产业升级和新产业诞生形成了一种推动力量,让大数据能够针对可发现事物的程序进行自动规划,实现人类用户与计算机信息之间的协调。 大数据环境下的机器学习算法,依据一定的性能标准,对学习结果的重要程度可以予以忽视。 采用分布式和并行计算的方式进行分治策略的实施,可以规避掉噪音数据和冗余带来的干扰,降低存储耗费,同时提高学习算法的运行效率。

随着大数据时代各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力。大数据时代的机器学习更强调“学习本身是手段"机器学习成为一 种支持和服务技术。如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。所以,机器学习越来越朝着智能数据分析的方向发展,并已成为智能数据分析技术的一个重要源泉。另外,在大数据时代,随着数据产生速度的持续加快,数据的体量有了前所未有的增长,而需要分析的新的数据种类也在不断涌现,如文本的理解、文本情感的分析、图像的检索和理解、图形和网络数据的分析等。使得大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。
但是现有的许多机器学习方法是建立在内存理论基础上的。大数据还无法装载进计算机内存的情况下,是无法进行诸多算法的处理的,因此应提出新的机器学习算法,以适应大数据处理的需要。

机器学习基于学习策略的分类

(1) 模拟人脑的机器学习
符号学习:模拟人脑的宏现心理级学习过程,以认知心理学原理为基础,以符号数据为输入,以符号运算为方法,用推理过程在图或状态空间中搜索,学习的目标为概念或规则等。符号学习的典型方法有记忆学习、示例学习、演绎学习.类比学习、解释学习等。
神经网络学习(或连接学习):模拟人脑的微观生理级学习过程,以脑和神经科学原理为基础,以人工神经网络为函数结构模型,以数值数据为输人,以数值运算为方法,用迭代过程在系数向量空间中搜索,学习的目标为函数。典型的连接学习有权值修正学习、拓扑结构学习。
(2) 直接采用数学方法的机器学习
主要有统计机器学习。 
统计机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。
统计机器学习三个要素:
模型(model):模型在未进行训练前,其可能的参数是多个甚至无穷的,故可能的模型也是多个甚至无穷的,这些模型构成的集合就是假设空间。
策略(strategy):即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。那么策略就是误差最小。
算法(algorithm):即从假设空间中挑选模型的方法(等同于求解最佳的模型参数)。机器学习的参数求解通常都会转化为最优化问题,故学习算法通常是最优化算法,例如最速梯度下降法、牛顿法以及拟牛顿法等。
#机器学习的常用算法
决策树算法,朴素贝叶斯算法,支持向量机,随机森林,
人工神经网络:人工神经网络与神经元组成的异常复杂的网络此大体相似,是个体单元互相连接而成,每个单元有数值量的输入和输出,形式可以为实数或线性组合函数。它先要以一种学习准则去学习,然后才能进行工作。当网络判断错误时,通过学习使其减少犯同样错误的可能性。此方法有很强的泛化能力和非线性映射能力,可以对信息量少的系统进行模型处理。从功能模拟角度看具有并行性,且传递信息速度极快。 
Boosting与Bagging算法,关联规则算法,EM(期望最大化)算法

深度学习:深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。

#应用

 

数据分析与挖掘:数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。

模式识别:模式识别的应用领域广泛,包括计算机视觉医学图像分析光学文字识别自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等

 

posted @ 2020-03-20 21:41  1SSS1  阅读(218)  评论(0编辑  收藏  举报