龙星计划(机器学习)笔记一

1       Introduction to Machine Learning

 

简单介绍了一下机器学习

1.1     什么是机器学习?

 

机器学习:设计和开发算法,基于历史数据,这些算法可以让计算机进化他们的行为。

通俗地讲,机器学习就是通过对大量的历史数据的学习,使得计算机不再是输出确定的信息,而是根据进化的程度,输出相应的信息。而且在进化过程中,计算机能自动地改进算法.

目前,具体的机器学习算法有:

(内容来自http://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0)

1)  构造条件概率:回归分析和统计分类

A) 人工神经网络

B) 决策树

C) 高斯回归分析

D) 线性判别分析

E)  最近邻居法

F)  感知器,Frank Rosenblatt给出的常用的感知机学习有,感知机学习、最小二乘法及梯度下降法。

G) 径向基函数核

H) 支持向量机

2)  通过再生模型构造概率密度函数

A) 最大期望算法

B) Graphical Model:包括贝叶斯场和Markov随机场

3)  近似推断技术

A) 马尔可夫链(Markov chain),蒙特卡罗方法

B) 变分法

 

1.2     机器学习三要素:data , model , algorithms

大量的数据:

1)  Web数据,

2)  点击流数据,

3)  事务数据,比如电商的交易数据。

4)  图像数据,

 

1.3     机器学习的应用

1)  计算机视觉,对象识别、检测、跟踪。

2)  语音识别,

3)  自然语言处理(NLP),如机器翻译、信息抽取、信息检索、问答系统及文本分类。

4)  Web 搜索,如百度、及百度右侧的广告。

5)  推荐系统,如亚马逊的销售量的1/3来自于推荐系统。

6)  机器人:无人驾驶汽车,如谷歌的无人驾驶汽车在闹市行驶30W仅是,没有犯一次错误。

 

1.4     机器学习的范式

1)  监督学习,分类、回归、预测等。

给予{xi,yi},学习y=f(x;θ)。

分类,xi表示文档,yi表示类别,用于文档分类,是经济类、政治类、或其他topic类的文章。

回归,y为连续型变量,例如对温度的预测,薪水的预测。

 

2)  非监督学习

给予{xi},学习y=f(x;θ)。

与监督学习不同的是,非监督学习没有给出y.

通常可以计算概率密度,密度大的表示典型数据,密度小的表示非典型数据。因此,非监督学习常用于异常检测。对Understand Data比较有用,比如将高维数据reduce到两维空间,做可视化分析,看有没有什么有兴趣的东西。

 

参考文献

维基百科

龙星计划—余凯课件

posted on 2014-05-23 21:58  strongyoung88  阅读(464)  评论(0编辑  收藏  举报