Loading

摘要: Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2,如此重复进行,直到弱学习器数达到事先指定的数目T,最终将这T个弱学习器通过集合策略进行整合,得到最终的强学习器。而Adaboost是Boosting家族的重要成员。 阅读全文
posted @ 2020-11-17 09:53 lotuslaw 阅读(137) 评论(0) 推荐(0) 编辑
摘要: PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 阅读全文
posted @ 2020-11-16 23:37 lotuslaw 阅读(82) 评论(0) 推荐(0) 编辑
摘要: DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。 阅读全文
posted @ 2020-11-16 20:35 lotuslaw 阅读(113) 评论(0) 推荐(0) 编辑
摘要: K-means的算法思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的联系在一起,而让簇间的距离尽量的大。 阅读全文
posted @ 2020-11-16 19:20 lotuslaw 阅读(80) 评论(0) 推荐(0) 编辑
摘要: TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 阅读全文
posted @ 2020-11-16 16:55 lotuslaw 阅读(57) 评论(0) 推荐(0) 编辑
摘要: SVM算法是一个很优秀的算法,在集成学习和神经网络之类的算法没有表现出优越性能前,SVM基本占据了分类模型的统治地位。目前则是在大数据时代的大样本背景下,SVM由于其在大样本时超级大的计算量,热度有所下降,但是仍然是一个常用的机器学习算法。 阅读全文
posted @ 2020-11-16 14:49 lotuslaw 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 感知机算法是一个简单易懂的算法。它是很多算法的鼻祖,比如支持向量机算法,神经网络与深度学习。 阅读全文
posted @ 2020-11-16 11:04 lotuslaw 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 随机森林是bagging的一个特化进阶版,所谓的特化是因为随机森林的弱学习器都是决策树。所谓的进阶是随机森林在bagging的样本随机采样基础上,又加上了特征的随机选择,其基本思想没有脱离bagging的范畴。 阅读全文
posted @ 2020-11-16 10:04 lotuslaw 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。 阅读全文
posted @ 2020-11-16 09:20 lotuslaw 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 1970年代,一个叫做昆兰的大神找到了用信息论中的熵来度量决策树的决策选择过程...... 阅读全文
posted @ 2020-11-15 15:37 lotuslaw 阅读(75) 评论(0) 推荐(0) 编辑