有多少人工,就有多少智能
摘要: 1.安装Graphviz 在graphviz的官网(网址:http://www.graphviz.org/Download_windows.php),选择Windows对应的mis文件进行下载。如graphviz-2.3.8.msi: 下载之后,进行安装。找到安装路径,如:C:\Program Fi 阅读全文
posted @ 2021-01-12 22:17 lvdongjie-avatarx 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 前面的博客里有提到决策树,我们也了解了决策树的构建过程,如果可以可视化决策树,把决策树打印出来,对我们理解决策树的构建会有很大的帮助。这篇文章中,我们就来看下如何可视化输出一棵决策树。 一、安装相应的插件 我们需要安装Graphviz和pygraphviz,教程,这个教程里有详细的安装过程,这里就不 阅读全文
posted @ 2021-01-12 22:15 lvdongjie-avatarx 阅读(603) 评论(0) 推荐(0) 编辑
摘要: 重要内容简述: 从ID3到C4.5再到CART 在分类树问题中(注意ID3和C4.5只能解决分类问题,CART是既可以解决分类问题,也可以解决回归问题):最主要的是要进行分类的最优特征和最优切分点的选择,为了这两个量,算法不断的计算每一层的最优特征和对应下的最优切分点 随机森林 属于集成学习的范畴, 阅读全文
posted @ 2021-01-12 21:43 lvdongjie-avatarx 阅读(1181) 评论(0) 推荐(0) 编辑
摘要: 剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪枝( 阅读全文
posted @ 2021-01-12 21:38 lvdongjie-avatarx 阅读(1134) 评论(0) 推荐(0) 编辑
摘要: 输出是连续变量的是回归树,输出是离散变量的是分类树。 CART决策树是一个二叉树。 回归树: 输入空间划分为M个单元 ,单元 对应输出 , 是其对应的输入空间。 输出 取 上所有输出的均值: 下面,看输入空间的划分方法。 假设最优切分变量 ,最优切分点 ,输入空间被划分为两部分: 它们的输出是各自输 阅读全文
posted @ 2021-01-12 20:57 lvdongjie-avatarx 阅读(131) 评论(0) 推荐(0) 编辑
摘要: from sklearn.feature_selection import SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn. 阅读全文
posted @ 2021-01-12 20:01 lvdongjie-avatarx 阅读(956) 评论(0) 推荐(0) 编辑
摘要: Categorical特征常被称为离散特征、分类特征,数据类型通常是object类型,而我们的机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。 Categorical特征又有两类,我们需要理解它们的具体含义并进行对应的转换。 Ordinal 类型:这种 阅读全文
posted @ 2021-01-12 19:48 lvdongjie-avatarx 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N 阅读全文
posted @ 2021-01-12 19:26 lvdongjie-avatarx 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2021-01-12 08:17 lvdongjie-avatarx 阅读(388) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/choven_meng/article/details/82878018 一、决策树模型与学习 1、决策树模型 2、决策树学习 二、特征选择 1、信息增益 2、信息增益率 三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法 四、决策树停止 阅读全文
posted @ 2021-01-12 07:57 lvdongjie-avatarx 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 一、基尼指数的概念 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 二、基尼系数的计算公式 基尼指数的计算公式为: 三、计算示 阅读全文
posted @ 2021-01-12 07:45 lvdongjie-avatarx 阅读(5195) 评论(0) 推荐(0) 编辑