摘要:
2000年Google的工程师第一次将AB测试用于测试搜索结果页展示多少搜索结果更合适,虽然那次的AB测试因为搜索结果加载速度的问题失败了,但是这次的AB测试可以认为是Google的第一次AB测试。从那以后AB测试被广泛应用于互联网公司的优化迭代, 每年数万个AB实验被Google、Amazon、eBay、阿里等主流互联网公司应用于线上进行UI内容优化、算法优化、收益优化等方方面面。 阅读全文
摘要:
推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,而另一方面让信息(商品)能够展现在对它感兴趣的用户面前从而实现信息消费者和信息生产者的双赢。而推荐系统的实现是基于推荐算法的。 阅读全文
摘要:
模型选择与评估虽然是机器学习的基础,但是个人认为这部分内容是最重要的。 阅读全文
摘要:
对训练集里面样本数量较少的类别(少数类)进行过采样,合成新的样本缓解类不平衡。 阅读全文
摘要:
作为GBDT的高效实现,XGBoost是一个上限特别高的算法,因此在算法竞赛中比较受欢迎。简单来说,对比原算法GBDT,XGBoost主要从下面三个方面做了优化:一是算法本身的优化,二是算法运行效率的优化,三是算法健壮性的优化。 阅读全文
摘要:
假如要选择3个最重要的机器学习算法的话,GBDT应该占有一席之地。 阅读全文
摘要:
Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。而Adaboost是Boosting家族的重要成员。 阅读全文