【ML】最小二乘Least squares，最大似然maximum Likelihood，贝叶斯bayesian method，正则项regularization mothed

2013-05-04 21:57 Loull 阅读(585) 评论(2) 编辑收藏举报

两个重要观点：
最小二乘数学建模等价于高斯噪声最大释然估计统计建模
正则化最小二成等价于基于高斯噪声的最大化后验概率统计建模

几乎所有的机器学习方法也许建立之初没有什么统计解释，最后大家发现，都可以通过统计的原理解释。

基于概率分布的建模过程，基于概率分布的建模过程，发挥的淋漓尽致的就是graphic model。

我理解的最小二乘，无非就是求解模型参数的方法。

牛顿和你的理解是一样的，牛顿和你的理解是一样的。

而统计学家说ok：我给你个统计解释，只要是高斯噪声对应的从最大释然估计，就是最小二乘，所以这是统计建模。

如果你的模型是个线性回归，你的noise是拉普拉斯，如果用最小二成就完了。正确的应该用，最小一成。

LAD叫做，机器学习上面叫做=误差建模，统计上面=稳健估计。

===========================================

维灾：

两个方面
第一，模型的复杂性。
第二，几何体的难以想象的各种突变

由于维数很大，简单的例子就是如果我们有n个变量那么我们如果回归也有2^n个模型

第二，几何体的难以想象的各种突变
这个地方没有很多经验我个人觉得比较难理解，你如何想象高维空间中的球体的数据，其实都集中在球壳附近。。。。。
如何想象高维空间的各种几何体，其实和三维空间中的完全不一样。我没有什么好的建议，如果大家真的想看看，就去学学Functional Geometrical Analysis.

===========================================

KL divergence：俗称KL距离，常用来衡量两个概率分布的距离。

通俗一点说：如果你有两个概率分布，如何度量他们是不是很像。

===========================================

统计与机器学习ikrain已经解释的十分全面了，只是补充一下，最小二乘用的是squre loss；svm是hinge loss；所以你说前者是统计的，后者在这个意义下也应该是可以划入统计范畴的，而且alex及其追随者，把loss这里作了很多非常统一的common sense，2000年左右无数本书，可以看看，前面ikrain都提到了；GFA有时间可以学下，cmu有这个相关的课，很有启发，对于random projection启发大一些。我忘了很多了，但是高维空间的球的质量分布在球壳上或赤道上（记不清了），这个比较违反我们的直觉。一个统计的应用是高维高斯分布（维数真的要很高），随机产生点，球内是几乎找不到的，只有在球壳（或是赤道）这点忘了，出了球壳记得也是几乎没有点的。

刷新页面返回顶部

Loull

【ML】最小二乘Least squares，最大似然maximum Likelihood，贝叶斯bayesian method，正则项regularization mothed

About