2048的渣渣

2019年5月20日

摘要： Stacking简单理解就是讲几个简单的模型，一般采用将它们进行K折交叉验证输出预测结果，然后将每个模型输出的预测结果合并为新的特征，并使用新的模型加以训练。阅读全文

posted @ 2019-05-20 15:41 2048的渣渣阅读(188) 评论(0) 推荐(0) 编辑

摘要： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。阅读全文

posted @ 2019-05-20 11:28 2048的渣渣阅读(160) 评论(0) 推荐(0) 编辑

2019年5月19日

机器学习算法学习---模型融合和提升的算法（二）

摘要： Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器融合起来，作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据特征，并放在关键的训练数据上面。阅读全文

posted @ 2019-05-19 21:45 2048的渣渣阅读(415) 评论(0) 推荐(0) 编辑

2019年5月17日

机器学习算法学习---模型融合和提升的算法（一）

摘要： bagging是一种用来提高学习算法准确度的方法，这种方法通过构造一个预测函数系列，然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”（不稳定是指数据集的小的变动能够使得分类结果的显著的变动）的分类方法。比如：决策树，神经网络算法。阅读全文

posted @ 2019-05-17 21:40 2048的渣渣阅读(709) 评论(0) 推荐(0) 编辑

2019年5月14日

机器学习算法学习---推荐系统的常用算法（二）

摘要：在传统的线性模型如LR中，每个特征都是独立的，如果需要考虑特征与特征直接的交互作用，可能需要人工对特征进行交叉组合；非线性SVM可以对特征进行kernel映射，但是在特征高度稀疏的情况下，并不能很好地进行学习；现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等，这些模型可以学习到特征之间的交互隐藏关系，但基本上每个模型都只适用于特定的输入和场景。为此，在高度稀疏的数据场景下如推荐系统，FM（Factorization Machine）出现了。阅读全文

posted @ 2019-05-14 17:44 2048的渣渣阅读(388) 评论(0) 推荐(0) 编辑

机器学习算法学习---推荐系统的常用算法（一）

摘要：推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法。阅读全文

posted @ 2019-05-14 10:45 2048的渣渣阅读(1654) 评论(0) 推荐(0) 编辑

2019年5月13日

机器学习算法学习---处理聚类问题常用算法（五）

摘要： LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块。阅读全文

posted @ 2019-05-13 16:15 2048的渣渣阅读(222) 评论(0) 推荐(0) 编辑

2019年5月12日

机器学习算法学习---处理聚类问题常用算法（四）

摘要： STING是一个基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元。阅读全文

posted @ 2019-05-12 21:18 2048的渣渣阅读(554) 评论(0) 推荐(0) 编辑