关于学习machine learning的一些基本知识点
一、使用机器学习方法的几个基本出发点
1、待解决的问题涉及的数据中,存在一些潜在可学习的pattern。
2、待解决的问题通过一般的编程范式不容易处理。
3、有一定量的数据用于机器学习建模。
二、机器学习与人工智能的简要关系
机器学习是可用于实现人工智能的一种方法。
三、统计学与机器学习的简要关系
统计学是实现机器学习的一种工具(方法)。
四、机器学习常用的几种分类方式
1、learning with different output space
【classification】,【regression】,【structured】
2、learning with different data label
【supervised】,【unsupervised】,【semi-supervised】,【reinforcement】
3、learning with different protocol
【batch】,【online】,【active】
4、learning with different input space
【concret】,【raw】,【abstract】
五、机器学习的部分基础理论
霍夫丁不等式(Hoeffding’s inequality),在概率论中,该不等式给出了随机变量的和与其期望值偏差的概率上限。
使用实例:
六、其他
VC 维理论
PAC
七、噪声与差误(Noise and Error)
八、产生overfitting的几种原因
1、数据量太少
2、随机噪声太大
3、确定性的噪声太大
4、模型复杂度过高
八、Regularization
九、Validation(Model selection problem)
十、机器学习中涉及的三个原理
1、Occam's Razor(奥卡姆剃刀原理)
选择模型的原则:
2、Sampling Bias(抽样偏差)
如果抽样得到的数据分布存在偏差,那么模型学到的知识也是错误的。训练(包括验证集)和测试所用的数据需要尽可能来自同一个数据分布,iid
3、Visual Data Snooping(可视化数据探测)
如何减缓在使用机器学习中人为进行"数据探测",而导致模型发生overfitting等问题: