摘要: 一、问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射 阅读全文
posted @ 2018-07-13 16:20 理想几岁 阅读(106139) 评论(3) 推荐(12) 编辑
摘要: 一、随机森林的定义 在集成学习中,我们知道bagging + 决策树就构成了随机森林。经典的机器学习模型是神经网络,神经网络预测精确,但是计算量很大。 随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Lear 阅读全文
posted @ 2018-07-13 15:27 理想几岁 阅读(2952) 评论(0) 推荐(0) 编辑
摘要: 一、决策树 决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树,在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。 在数据挖掘中,决策树主要有两种类型: 分类树 的输出是样本的类标。 回归树 的输出是一个 阅读全文
posted @ 2018-07-13 14:35 理想几岁 阅读(1423) 评论(0) 推荐(0) 编辑
摘要: 一、集成学习法 在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某 阅读全文
posted @ 2018-07-13 12:48 理想几岁 阅读(102196) 评论(5) 推荐(7) 编辑