博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

机器学习入门

Posted on 2012-03-07 19:26  月不识己  阅读(579)  评论(0编辑  收藏  举报
感觉写的不错!!


机器学习问题常用技术:

        决策树

        神经网络

        支持向量机

        贝叶斯分类

        序列分析 聚类 分类

        最近邻,k近邻,改进近邻

目前有多种比较成熟的算法,如贝叶斯分类、近邻法、决策树、神经网络、支撑向量机等。其中贝叶斯算法被认为是效果良好的算法并被诸多学者所使用。



应用驱动的机器学习方法

1、流形机器学习:稀疏数据的非线性方法 (特征抽取)。

2、增强学习:对变化环境适应(机器人)。

3、多实例学习:半监督学习(药物设计)。

4、ranking学习:需求是事物排序的学习(搜索引擎)。

5、数据流学习:大量数据快速过滤(有害信息过滤)。

有监督方法:

                 线性学习机LLM

                 K最近邻法KFA

                 SIMCA法

  无监督方法:

                  因子分析FA

                  主成分分析PCA

                   独立成分分析ICA

                   非线性成分分析 NLCA

                    聚类分析clustering  

   半监督学习:

                    EM

                     tsvm 

                    Co-training

                    Self-training    

                    Graph-based               



1989年,Carbonell指出机器学习有4个研究方向:连接机器学习、基于符号的归纳机器学习、遗传机器学习与分析机器学习.十年过去了,1997年,Dietterich提出了另外4个新的研究方向:分类器的集成(Ensembles of classifiers)、海量数据的有教师学习算法(Methods for scaling up supervised learning algorithm)、增强机器学习(Reinforcement learn—ing)与学习复杂统计模型(Learning complex stochastic models)[5].在理论上,我们可以将其进一步归纳为三类不同的学习理论: 统计机器学习理论,海量数据的符号机器学习理论、基于适应性的机器学习理论。

将讨论聚焦在当前的热点问题上,由此,我们将主要讨论下述四类机器学习的问题:(1)统计机器学习理论,(2)集成机器学习方法,(3)基于符号的归纳机器学习理论,(4)增强机器学习理论。(在理论上,集成机器学习方法可以归入统计机器学习理论,但是,在技术上,这种方法具有重要的价值,因此本文中,我们将其作为一种独立的机器学习类型进行讨论)

特征的提取是分类系统中最关键的部分之一.特征提取的好坏.直接关系到分类的性能

基于判别熵最小化的特征提取。

机器学习算法的重要理论基础是经典的统计学,它的主要研究内容是样本数目趋于无穷大时的渐进理论。基于VC理论的创造性机器学习方法SVM(Support Vector Machine如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了

20世纪90年代中期,Vapnik和他领导的AT&T Bell实验室小组提出了基于统计学习理论、核函数映射理论的支持向量机(support vector machine,SVM)学习算法 ],这是一种典型的小样本机器学习算法,它一经提出便以其卓越的理论性能、良好的泛化性能引起了机器学习领域研究者的广泛关注。当前,SVM在高光谱遥感影像解译、模式分类 等领域都得到了十分成功的应用,它已经成为研究者用于解决小样本学习问题的一种重要手段。