如何理解统计学中「惩罚」的概念
作者:萧议
链接:https://www.zhihu.com/question/30037293/answer/46867665
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应你对对应的统计问题的某种先验知识(比如回归系数当中应该有很多0啊,回归系数不应该太大啊)
比如n维线性回归中的LASSO和一般的最小二乘回归Least square,前者的回归系数被限制在一个L1意义下的n维球内,而后者的参数空间则是R^n
再比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度
一些情况下,惩罚有独特的概率上的解释,比如假设正太噪声的线性模型中,LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior,而岭回归Ridge regression中的L2惩罚则对应一般的normal prior
这样的方法在统计中一般叫正则化Regularization,当然也可以叫惩罚Penalization,正则化由Tikhonov在解ill-posed equation时引入,通过加上惩罚项(一般来说是hilbert space上的Lp norm)来限制解可以取值的范围以保证解的良好性质,比如唯一性。后来人们发现,很多问题如果你给他太大的空间,搜索出来的解即便存在唯一,往往也不够好(under some other criteria, like predictive MSE, AIC, BIC ),这个涉及Occam Razor principle,统计中的bias variance trade off,拟合和预测的trade off啦,总的来说,让参数们老实点,别乱跑,得到的结果会比较好。
惩罚似然 请去看Fan Jianqing的SCAD,没记错是98年的JASA
惩罚回归 自然就去看Tibshirani的LASSO,96年的RoyalB,后面一堆follow up,还有tibshirani本人的review,此外还有Efron的LAR,早一点的Ridge Regression比较简单,可以看看
惩罚样条 去看Wahba的paper和书吧,此外记得Elements of Statistical Learning里面有讲光滑样条来着
PS:优化的话 其实统计这边不是那么care。一般来说加上惩罚之后,院里的unconstrained optimization就变成了constrained optimization,求解的算法复杂度只可能持平或者变高,因为惩罚引入的constrained set可能是奇形怪状的,离散的,非凸的。但是通过适当的选取惩罚可以避免太扯淡的np hard的问题。tenrence tao和candes的compressive sensing就是用L1的惩罚(凸优化)relax了本来很难求解的L0惩罚(整数规划),然后证明了在一定的稀疏性条件下,新的优化问题的解收敛到原问题的解。岭回归有显式解,LASSO虽然没有但是可以在最小二乘的时间复杂度内解出来,最后还有诸如SCAD等等non-convex的惩罚。。。对于这部分非凸的惩罚我只能说,统计性质或许很不错但是计算角度来看实在是不靠谱。。。但是咱们搞统计的不care~
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡