经典算法 - 随笔分类(第3页) - lvdongjie-avatarx

摘要：https://scikit-learn.org/stable/modules/classes.html 阅读全文

posted @ 2021-01-13 08:04 lvdongjie-avatarx 阅读(56) 评论(0) 推荐(0) 编辑

摘要：一、集成学习法在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某阅读全文

posted @ 2021-01-13 08:02 lvdongjie-avatarx 阅读(551) 评论(0) 推荐(0) 编辑

Windows下安装Graphviz和pygraphviz的方法

摘要：1.安装Graphviz 在graphviz的官网(网址：http://www.graphviz.org/Download_windows.php)，选择Windows对应的mis文件进行下载。如graphviz-2.3.8.msi: 下载之后，进行安装。找到安装路径，如：C:\Program Fi 阅读全文

posted @ 2021-01-12 22:17 lvdongjie-avatarx 阅读(678) 评论(0) 推荐(0) 编辑

决策树的可视化

摘要：前面的博客里有提到决策树，我们也了解了决策树的构建过程，如果可以可视化决策树，把决策树打印出来，对我们理解决策树的构建会有很大的帮助。这篇文章中，我们就来看下如何可视化输出一棵决策树。一、安装相应的插件我们需要安装Graphviz和pygraphviz，教程，这个教程里有详细的安装过程，这里就不阅读全文

posted @ 2021-01-12 22:15 lvdongjie-avatarx 阅读(609) 评论(0) 推荐(0) 编辑

决策树的优化-随机森林

摘要：重要内容简述：从ID3到C4.5再到CART 在分类树问题中（注意ID3和C4.5只能解决分类问题，CART是既可以解决分类问题，也可以解决回归问题）：最主要的是要进行分类的最优特征和最优切分点的选择，为了这两个量，算法不断的计算每一层的最优特征和对应下的最优切分点随机森林属于集成学习的范畴，阅读全文

posted @ 2021-01-12 21:43 lvdongjie-avatarx 阅读(1192) 评论(0) 推荐(0) 编辑

决策树的优化-剪枝优化

摘要：剪枝（pruning）的目的是为了避免决策树模型的过拟合。因为决策树算法在学习的过程中为了尽可能的正确的分类训练样本，不停地对结点进行划分，因此这会导致整棵树的分支过多，也就导致了过拟合。决策树的剪枝策略最基本的有两种：预剪枝（pre-pruning）和后剪枝（post-pruning）：预剪枝（阅读全文

posted @ 2021-01-12 21:38 lvdongjie-avatarx 阅读(1148) 评论(0) 推荐(0) 编辑

CART回归树与分类树

摘要：输出是连续变量的是回归树，输出是离散变量的是分类树。 CART决策树是一个二叉树。回归树：输入空间划分为M个单元，单元对应输出，是其对应的输入空间。输出取上所有输出的均值：下面，看输入空间的划分方法。假设最优切分变量，最优切分点，输入空间被划分为两部分：它们的输出是各自输阅读全文

posted @ 2021-01-12 20:57 lvdongjie-avatarx 阅读(132) 评论(0) 推荐(0) 编辑

特征选择---SelectKBest

摘要：from sklearn.feature_selection import SelectKBest http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html#sklearn. 阅读全文

posted @ 2021-01-12 20:01 lvdongjie-avatarx 阅读(956) 评论(0) 推荐(0) 编辑

数据挖掘中对Categorical特征的处理

摘要：Categorical特征常被称为离散特征、分类特征，数据类型通常是object类型，而我们的机器学习模型通常只能处理数值数据，所以需要对Categorical数据转换成Numeric特征。 Categorical特征又有两类，我们需要理解它们的具体含义并进行对应的转换。 Ordinal 类型：这种阅读全文

posted @ 2021-01-12 19:48 lvdongjie-avatarx 阅读(434) 评论(0) 推荐(0) 编辑

python LabelEncoder与Get_Dummies的区别

摘要：1. pd.get_dummies() #简单&粗暴 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=N 阅读全文

posted @ 2021-01-12 19:26 lvdongjie-avatarx 阅读(340) 评论(0) 推荐(0) 编辑

决策树的三种算法

摘要：阅读全文

posted @ 2021-01-12 08:17 lvdongjie-avatarx 阅读(397) 评论(0) 推荐(0) 编辑

决策树—ID3、C4.5、CART

摘要：https://blog.csdn.net/choven_meng/article/details/82878018 一、决策树模型与学习 1、决策树模型 2、决策树学习二、特征选择 1、信息增益 2、信息增益率三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法四、决策树停止阅读全文

posted @ 2021-01-12 07:57 lvdongjie-avatarx 阅读(534) 评论(0) 推荐(0) 编辑

基尼系数（Gini Impurity）的理解和计算

摘要：一、基尼指数的概念基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0. 二、基尼系数的计算公式基尼指数的计算公式为：三、计算示阅读全文

posted @ 2021-01-12 07:45 lvdongjie-avatarx 阅读(5236) 评论(0) 推荐(0) 编辑

决策树-基尼指数

摘要：基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0. 基尼指数的计算方法为：其中，pk表示样本属于第k个类别的概率举例：根据天气阅读全文

posted @ 2021-01-11 21:57 lvdongjie-avatarx 阅读(6614) 评论(1) 推荐(0) 编辑

决策树里的信息熵

摘要：https://blog.csdn.net/am290333566/article/details/81187124 机器学习中，绕不开的一个概念就是熵 (Entropy)，信息熵。信息熵常被用来作为一个系统的信息含量的量化指标，从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的阅读全文

posted @ 2021-01-11 20:46 lvdongjie-avatarx 阅读(570) 评论(0) 推荐(0) 编辑

KD树与决策树的区别与联系

摘要：KD树是提高K近邻法计算效率的一种手段，类似二叉查找树。不过二叉查找树中的数据是一维的，而K近邻的训练样本往往是多维的。所以，在建树的过程中，需要进行特征维度的选择。合理的方式是，每轮递归选择方差最大的特征S作为区分标准，以S的中位数作为根节点。这样能保证寻找最近邻的快速性，构建出均衡的二叉树。决阅读全文

posted @ 2021-01-11 20:05 lvdongjie-avatarx 阅读(437) 评论(0) 推荐(0) 编辑

Logistic Regression（逻辑回归）模型实现二分类和多分类

摘要：一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时，通常可以找到某一个判定边界去将样本点进行分类。例如：线性判定边界：非线性判定边界：三、二分类和sigmoid函数 sigmoid函数图像如下：四、损失函数 1. 定义 2. 极大似然估计上面是一种求损失函阅读全文

posted @ 2021-01-10 21:55 lvdongjie-avatarx 阅读(1869) 评论(0) 推荐(3) 编辑

KNN-k近邻算法原理

摘要：K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法，所谓，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。比如：判断一个人的人品，只需要观察与他来往最密切的几个人的人品好坏就可以得出，即“近朱者赤，近墨者黑”；KNN算法既可以应用于分类应用中，阅读全文

posted @ 2021-01-10 20:46 lvdongjie-avatarx 阅读(302) 评论(0) 推荐(0) 编辑

Sklearn中交叉验证 KFold

摘要：一. 交叉验证原理讲解 1. 设置验证集的原因在机器学习建模过程中，将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集，完全不参与训练，只是用于模型最终确定后，来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果，即验证集。验证集在每次训练集训练结束后，对模型的效果进行初阅读全文

posted @ 2021-01-10 18:59 lvdongjie-avatarx 阅读(178) 评论(0) 推荐(0) 编辑

多分类问题的评价指标

摘要：对于二分类问题，precision，recall，auc，f1_score的计算原理都比较熟悉，但是多分类问题的计算还是有一点小小的区别，在使用sklearn.metrics的时候需要注意一下；对于sklearn.metrics下的roc_auc_score, precision_score, r 阅读全文

posted @ 2021-01-10 18:52 lvdongjie-avatarx 阅读(451) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

随笔分类 - 经典算法

公告