Spark Mllib里如何采用保序回归做回归分析（图文详解）

　　不多说，直接上干货！

　　相比于决策树，保序回归的应用范围没有决策树算法那么广泛。

　　特别在数据处理较为庞大的时候，采用保序回归做回归分析，可以极大地节省资源，从而提高计算效率。

　　保序回归的思想，是对数据进行均值排序，从数据集的第一个数开始，如果下一个数出现乱序，即与设定的顺序不符，则从乱序的数据开始逐个开始求得平均值，直到求得的平均值与下一个数据比较不成为乱序为止。

　　例如一个数据集：

 {1,3,2,4,5}

　　要求其按照保序回归由小到大进行排列。

　　首先观察第一个数是1，可以不做变动继续存放。第二个是2，仍然不需要变动。第三个数是2，是属于乱序从而需要对其重新计算。

　　第三个数是乱序，需要对其重新计算，提取数据2和下一个数据4，计算得到平均值为3，因此，可获得一个新的数据集：

 {1,3,3,3,5}

　　具体，见

Spark Mllib机器学习实战的第8章决策树与保序回归

posted @ 2017-09-06 20:38 大数据和AI躺过的坑阅读(689) 评论(0) 编辑收藏举报

刷新页面返回顶部