随笔分类 - 经典算法
摘要:https://scikit-learn.org/stable/modules/classes.html
阅读全文
摘要:一、集成学习法 在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某
阅读全文
摘要:1.安装Graphviz 在graphviz的官网(网址:http://www.graphviz.org/Download_windows.php),选择Windows对应的mis文件进行下载。如graphviz-2.3.8.msi: 下载之后,进行安装。找到安装路径,如:C:\Program Fi
阅读全文
摘要:前面的博客里有提到决策树,我们也了解了决策树的构建过程,如果可以可视化决策树,把决策树打印出来,对我们理解决策树的构建会有很大的帮助。这篇文章中,我们就来看下如何可视化输出一棵决策树。 一、安装相应的插件 我们需要安装Graphviz和pygraphviz,教程,这个教程里有详细的安装过程,这里就不
阅读全文
摘要:重要内容简述: 从ID3到C4.5再到CART 在分类树问题中(注意ID3和C4.5只能解决分类问题,CART是既可以解决分类问题,也可以解决回归问题):最主要的是要进行分类的最优特征和最优切分点的选择,为了这两个量,算法不断的计算每一层的最优特征和对应下的最优切分点 随机森林 属于集成学习的范畴,
阅读全文
摘要:剪枝(pruning)的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本,不停地对结点进行划分,因此这会导致整棵树的分支过多,也就导致了过拟合。决策树的剪枝策略最基本的有两种:预剪枝(pre-pruning)和后剪枝(post-pruning): 预剪枝(
阅读全文
摘要:输出是连续变量的是回归树,输出是离散变量的是分类树。 CART决策树是一个二叉树。 回归树: 输入空间划分为M个单元 ,单元 对应输出 , 是其对应的输入空间。 输出 取 上所有输出的均值: 下面,看输入空间的划分方法。 假设最优切分变量 ,最优切分点 ,输入空间被划分为两部分: 它们的输出是各自输
阅读全文
摘要:from sklearn.feature_selection import SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn.
阅读全文
摘要:Categorical特征常被称为离散特征、分类特征,数据类型通常是object类型,而我们的机器学习模型通常只能处理数值数据,所以需要对Categorical数据转换成Numeric特征。 Categorical特征又有两类,我们需要理解它们的具体含义并进行对应的转换。 Ordinal 类型:这种
阅读全文
摘要:1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N
阅读全文
摘要:https://blog.csdn.net/choven_meng/article/details/82878018 一、决策树模型与学习 1、决策树模型 2、决策树学习 二、特征选择 1、信息增益 2、信息增益率 三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法 四、决策树停止
阅读全文
摘要:一、基尼指数的概念 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 二、基尼系数的计算公式 基尼指数的计算公式为: 三、计算示
阅读全文
摘要:基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。 注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 基尼指数的计算方法为:其中,pk表示样本属于第k个类别的概率 举例:根据天气
阅读全文
摘要:https://blog.csdn.net/am290333566/article/details/81187124 机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的
阅读全文
摘要:KD树是提高K近邻法计算效率的一种手段,类似二叉查找树。不过二叉查找树中的数据是一维的,而K近邻的训练样本往往是多维的。所以,在建树的过程中,需要进行特征维度的选择。合理的方式是,每轮递归选择方差最大的特征S作为区分标准,以S的中位数作为根节点。这样能保证寻找最近邻的快速性,构建出均衡的二叉树。 决
阅读全文
摘要:一、逻辑回归 二、判定边界 当将训练集的样本以其各个特征为坐标轴在图中进行绘制时,通常可以找到某一个 判定边界 去将样本点进行分类。例如: 线性判定边界: 非线性判定边界: 三、二分类和sigmoid函数 sigmoid函数图像如下: 四、损失函数 1. 定义 2. 极大似然估计 上面是一种求损失函
阅读全文
摘要:K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法,所谓,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即“近朱者赤,近墨者黑”;KNN算法既可以应用于分类应用中,
阅读全文
摘要:一. 交叉验证原理讲解 1. 设置验证集的原因 在机器学习建模过程中,将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集,完全不参与训练,只是用于模型最终确定后,来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果,即验证集。验证集在每次训练集训练结束后,对模型的效果进行初
阅读全文
摘要:对于二分类问题,precision,recall,auc,f1_score的计算原理都比较熟悉,但是多分类问题的计算还是有一点小小的区别,在使用sklearn.metrics的时候需要注意一下; 对于sklearn.metrics下的roc_auc_score, precision_score, r
阅读全文