摘要: Stacking简单理解就是讲几个简单的模型,一般采用将它们进行K折交叉验证输出预测结果,然后将每个模型输出的预测结果合并为新的特征,并使用新的模型加以训练。 阅读全文
posted @ 2019-05-20 15:41 2048的渣渣 阅读(188) 评论(0) 推荐(0) 编辑
摘要: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 阅读全文
posted @ 2019-05-20 11:28 2048的渣渣 阅读(160) 评论(0) 推荐(0) 编辑
摘要: Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征,并放在关键的训练数据上面。 阅读全文
posted @ 2019-05-19 21:45 2048的渣渣 阅读(415) 评论(0) 推荐(0) 编辑
摘要: bagging是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”(不稳定是指数据集的小的变动能够使得分类结果的显著的变动)的分类方法。比如:决策树,神经网络算法。 阅读全文
posted @ 2019-05-17 21:40 2048的渣渣 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 在传统的线性模型如LR中,每个特征都是独立的,如果需要考虑特征与特征直接的交互作用,可能需要人工对特征进行交叉组合;非线性SVM可以对特征进行kernel映射,但是在特征高度稀疏的情况下,并不能很好地进行学习;现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等,这些模型可以学习到特征之间的交互隐藏关系,但基本上每个模型都只适用于特定的输入和场景。为此,在高度稀疏的数据场景下如推荐系统,FM(Factorization Machine)出现了。 阅读全文
posted @ 2019-05-14 17:44 2048的渣渣 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法。 阅读全文
posted @ 2019-05-14 10:45 2048的渣渣 阅读(1654) 评论(0) 推荐(0) 编辑
摘要: LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块。 阅读全文
posted @ 2019-05-13 16:15 2048的渣渣 阅读(222) 评论(0) 推荐(0) 编辑
摘要: STING是一个基于网格的多分辨率聚类技术,它将空间区域划分为矩形单元。 阅读全文
posted @ 2019-05-12 21:18 2048的渣渣 阅读(554) 评论(0) 推荐(0) 编辑
摘要: BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。 阅读全文
posted @ 2019-05-12 20:32 2048的渣渣 阅读(398) 评论(0) 推荐(0) 编辑
摘要: 相比其他的聚类方法,基于密度的聚类方法可以在有噪音的数据中发现各种形状和各种大小的簇。DBSCAN(Ester, 1996)是该类方法中最典型的代表算法之一。 阅读全文
posted @ 2019-05-11 17:02 2048的渣渣 阅读(601) 评论(0) 推荐(0) 编辑