回归和分类

在数据分析或者数据挖掘的时候，经常碰到回归和分类的问题，下面详细说下我对我这两概念的理解。

回归

一直对为什么叫回归很好奇，百度百科对回归的定义如下：

回归，指研究一组随机变量(Y1 ，Y2 ，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常Y1，Y2，…，Yi是因变量，X1、X2，…，Xk是自变量。

一直想不懂为什么叫回归，查了一下，大概可能是原因。

左图是一个房间大小和房价的数据图，右图是一个拟合图（图片来自http://blog.csdn.net/ppn029012/article/details/8775597）

之所以叫回归，是因为对于一个好的拟合曲线（如上图中的蓝线），所有的数据点都在想着拟合曲线靠拢的过程，可以想象成这些数据点向拟合曲线回归的过程。

从回归的定义也可以看出，回归倾向于一个X值对于一个Y值，这是和分类不同的地方。

如果能找到合适的拟合曲线或者拟合函数的话，分类问题也可以转成回归问题，比如下面的问题：

这显然是一个分类问题，但我们找到一个函数可以拟合这个分布，也就是可以用回归的方法的做分类

最后总结一下回归和分类的联系和区别：

给定一个样本特征

也就是说，回归和分类不是绝对的分离，只是他们的目标不一样；在能找到合适的拟合曲线的情况下，分类问题可以转化为回归问题；

这也是为什么很多回归算法可以应用到分类的原因之一。

posted @ 2016-04-25 16:27 2BiTT 阅读(1501) 评论(0) 收藏举报

刷新页面返回顶部