Loading

摘要: 2000年Google的工程师第一次将AB测试用于测试搜索结果页展示多少搜索结果更合适,虽然那次的AB测试因为搜索结果加载速度的问题失败了,但是这次的AB测试可以认为是Google的第一次AB测试。从那以后AB测试被广泛应用于互联网公司的优化迭代, 每年数万个AB实验被Google、Amazon、eBay、阿里等主流互联网公司应用于线上进行UI内容优化、算法优化、收益优化等方方面面。 阅读全文
posted @ 2020-11-17 21:02 lotuslaw 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,而另一方面让信息(商品)能够展现在对它感兴趣的用户面前从而实现信息消费者和信息生产者的双赢。而推荐系统的实现是基于推荐算法的。 阅读全文
posted @ 2020-11-17 20:59 lotuslaw 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 模型选择与评估虽然是机器学习的基础,但是个人认为这部分内容是最重要的。 阅读全文
posted @ 2020-11-17 20:40 lotuslaw 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 对训练集里面样本数量较少的类别(少数类)进行过采样,合成新的样本缓解类不平衡。 阅读全文
posted @ 2020-11-17 17:39 lotuslaw 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 作为GBDT的高效实现,XGBoost是一个上限特别高的算法,因此在算法竞赛中比较受欢迎。简单来说,对比原算法GBDT,XGBoost主要从下面三个方面做了优化:一是算法本身的优化,二是算法运行效率的优化,三是算法健壮性的优化。 阅读全文
posted @ 2020-11-17 16:19 lotuslaw 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 假如要选择3个最重要的机器学习算法的话,GBDT应该占有一席之地。 阅读全文
posted @ 2020-11-17 13:55 lotuslaw 阅读(87) 评论(0) 推荐(0) 编辑
摘要: Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。而Adaboost是Boosting家族的重要成员。 阅读全文
posted @ 2020-11-17 09:53 lotuslaw 阅读(137) 评论(0) 推荐(0) 编辑
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 阅读全文
posted @ 2020-11-16 23:37 lotuslaw 阅读(80) 评论(0) 推荐(0) 编辑
摘要: DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。 阅读全文
posted @ 2020-11-16 20:35 lotuslaw 阅读(111) 评论(0) 推荐(0) 编辑
摘要: K-means的算法思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的联系在一起,而让簇间的距离尽量的大。 阅读全文
posted @ 2020-11-16 19:20 lotuslaw 阅读(80) 评论(0) 推荐(0) 编辑