代码改变世界

【ML】最小二乘Least squares,最大似然maximum Likelihood,贝叶斯bayesian method,正则项regularization mothed

2013-05-04 21:57  Loull  阅读(585)  评论(2编辑  收藏  举报

 

两个重要观点:
最小二乘数学建模等价于高斯噪声最大释然估计统计建模
正则化最小二成等价于基于高斯噪声的最大化后验概率统计建模

几乎所有的机器学习方法也许建立之初没有什么统计解释,最后大家发现,都可以通过统计的原理解释。

基于概率分布的建模过程,基于概率分布的建模过程,发挥的淋漓尽致的就是graphic model。

 

我理解的最小二乘,无非就是求解模型参数的方法。

牛顿和你的理解是一样的,牛顿和你的理解是一样的。

而统计学家说ok:我给你个统计解释,只要是高斯噪声对应的从最大释然估计,就是最小二乘,所以这是统计建模。

如果你的模型是个线性回归,你的noise是拉普拉斯,如果用最小二成就完了。正确的应该用,最小一成。

LAD叫做,机器学习上面叫做=误差建模,统计上面=稳健估计。

===========================================

维灾:

两个方面
第一, 模型的复杂性。
第二, 几何体的难以想象的各种突变

由于维数很大,简单的例子就是如果我们有n个变量那么我们如果回归也有2^n个模型

第二, 几何体的难以想象的各种突变
这个地方没有很多经验我个人觉得比较难理解,你如何想象高维空间中的球体的数据,其实都集中在球壳附近。。。。。
如何想象高维空间的各种几何体,其实和三维空间中的完全不一样。我没有什么好的建议,如果大家真的想看看,就去学学Functional Geometrical Analysis.

===========================================

KL divergence:俗称KL距离,常用来衡量两个概率分布的距离。

通俗一点说:如果你有两个概率分布,如何度量他们是不是很像。

===========================================

统计与机器学习ikrain已经解释的十分全面了,只是补充一下,最小二乘用的是squre loss;svm是hinge loss;所以你说前者是统计的,后者在这个意义下也应该是可以划入统计范畴的,而且alex及其追随者,把loss这里作了很多非常统一的common sense,2000年左右无数本书,可以看看,前面ikrain都提到了;GFA有时间可以学下,cmu有这个相关的课,很有启发,对于random projection启发大一些。我忘了很多了,但是高维空间的球的质量分布在球壳上或赤道上(记不清了),这个比较违反我们的直觉。一个统计的应用是高维高斯分布(维数真的要很高),随机产生点,球内是几乎找不到的,只有在球壳(或是赤道)这点忘了,出了球壳记得也是几乎没有点的。