01 2020 档案
摘要:梯度提升树算法(Gradient Boosting Decision Tree,GBDT)是一个非常经典的机器学习算法,和我们前面介绍过的Adaboost算法一样,都是提升学习系列算法中的一员。从“梯度提升树”这个算法名称中我们也可以看出,这又是一个决策树的集成算法,更进一步地说,这个算法是以CART决策树算法作为基学习算法的一种集成算法。对于CART决策树算法,在之前的博客中已经有详细的介绍,在阅读本文之前请务必先理解CART决策树算法。接下来,本文将会从提升树开始,逐渐深入的介绍GBDT算法。
阅读全文
摘要:在展开数据分析工作时,我们经常会面临两种困境,一种是原始数据中特征属性太少,“巧妇难为无米之炊”,很难挖掘出潜在的规律,对于这种情况,我们只能在收集这一环节上多下功夫;另一种困境刚好相反,那就是特征属性太多,这真是一种幸福得烦恼,因为特征属性多就意味着信息量大,可挖掘的价值就大,但另一方面也可能造成过拟合和计算量的急剧增大,对于这一问题,最好的方法就是在预处理阶段对数据进行降维。
阅读全文
摘要:在上一篇博客中,我们总结了集成学习的原理,并展开介绍了集成学习中Bagging和随机森林这一分枝算法,在本篇博客中,我们继续介绍另一个分枝——Boosting,并对Boosting系列中的经典算法Adaboost展开分析。
阅读全文
摘要:集成学习算法是当下炙手可热的一类算法,在诸多机器学习大赛中都频繁出现它的身影。准确来说,集成学习算法并不是一个单独的机器学习算法,而是通过构建多个学习器,博采众家之长,共同求解问题的一种思想。
阅读全文