关于学习machine learning的一些基本知识点

一、使用机器学习方法的几个基本出发点

1、待解决的问题涉及的数据中,存在一些潜在可学习的pattern。

2、待解决的问题通过一般的编程范式不容易处理。

3、有一定量的数据用于机器学习建模。

二、机器学习与人工智能的简要关系

机器学习是可用于实现人工智能的一种方法。

三、统计学与机器学习的简要关系

统计学是实现机器学习的一种工具(方法)。

四、机器学习常用的几种分类方式

1、learning with different output space

  【classification】,【regression】,【structured】

2、learning with different data label

  【supervised】,【unsupervised】,【semi-supervised】,【reinforcement】

3、learning with different protocol

  【batch】,【online】,【active】

4、learning with different input space

  【concret】,【raw】,【abstract】

五、机器学习的部分基础理论

霍夫丁不等式(Hoeffding’s inequality),在概率论中,该不等式给出了随机变量的和与其期望值偏差的概率上限。

使用实例:

 

六、其他

VC 维理论

PAC

七、噪声与差误(Noise and Error)

八、产生overfitting的几种原因

1、数据量太少

2、随机噪声太大

3、确定性的噪声太大

4、模型复杂度过高

 八、Regularization

 

九、Validation(Model selection problem)

 

十、机器学习中涉及的三个原理

1、Occam's Razor(奥卡姆剃刀原理)

选择模型的原则:

 

2、Sampling Bias(抽样偏差)

如果抽样得到的数据分布存在偏差,那么模型学到的知识也是错误的。训练(包括验证集)和测试所用的数据需要尽可能来自同一个数据分布,iid

3、Visual Data Snooping(可视化数据探测)

 

如何减缓在使用机器学习中人为进行"数据探测",而导致模型发生overfitting等问题:

posted on 2018-10-29 22:17  知识的容量瓶  阅读(604)  评论(0编辑  收藏  举报