1-预测分析类核心算法简介

目前,工业界比较高效、常用的预测分析类算法主要分为两种:

1.惩罚线性回归  2.集成方法(ensemble method)

面对绝大多数预测问题,上述两种方法都能达到最优或者接近最优的性能。比如boosted decision trees、RF、Bagged decision trees属于集成方法,而LR属于比较接近惩罚回归的算法。

一般情况下:

1.惩罚回归算法更适用于数据规模小而特征较多的问题;

2.集成方法用更适用于数据量较大,可以充分学习的数据集。

在预测模型的构建过程中,最消耗时间的一般是数据处理与特征工程,大概占到开发的80%-90%之间。

下面介绍两种算法的基本概念:

1)惩罚线性回归:为了平衡最小二乘的欠拟合与过拟合的函数逼近。

2)集成方法:构建多个不同的预测模型,然后将其输出做某种组合作为最终输出,如取均值(减小方差)、bagging(随机取样,基于随机数据子集进行训练,也就是投票)等。

至于两种算法的应用和选择。惩罚线性回归的优点就是训练速度快,初期可以用来进行特征选择,尤其是在处理基因选择这种具有上万维特征的问题,该方法是辅助特征工程的一个重要工具;在数据充足的情况下,集成方法能提供更好的性能。

一般步骤:选择一组特征,开始训练机器学习算法,得到一个模型并对它的性能进行评测。根据评测结果对特征集进行调整,后者选择另一种目标函数。

posted @ 2017-01-05 10:48  big_brother  阅读(1738)  评论(0编辑  收藏  举报