lvdongjie-avatarx

2021年1月12日

摘要： https://blog.csdn.net/choven_meng/article/details/82878018 一、决策树模型与学习 1、决策树模型 2、决策树学习二、特征选择 1、信息增益 2、信息增益率三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法四、决策树停止阅读全文

posted @ 2021-01-12 07:57 lvdongjie-avatarx 阅读(523) 评论(0) 推荐(0) 编辑

基尼系数（Gini Impurity）的理解和计算

摘要：一、基尼指数的概念基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0. 二、基尼系数的计算公式基尼指数的计算公式为：三、计算示阅读全文

posted @ 2021-01-12 07:45 lvdongjie-avatarx 阅读(5195) 评论(0) 推荐(0) 编辑

2021年1月11日

决策树-基尼指数

摘要：基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0. 基尼指数的计算方法为：其中，pk表示样本属于第k个类别的概率举例：根据天气阅读全文

posted @ 2021-01-11 21:57 lvdongjie-avatarx 阅读(6609) 评论(1) 推荐(0) 编辑

决策树里的信息熵

摘要： https://blog.csdn.net/am290333566/article/details/81187124 机器学习中，绕不开的一个概念就是熵 (Entropy)，信息熵。信息熵常被用来作为一个系统的信息含量的量化指标，从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的阅读全文

posted @ 2021-01-11 20:46 lvdongjie-avatarx 阅读(570) 评论(0) 推荐(0) 编辑

KD树与决策树的区别与联系

摘要： KD树是提高K近邻法计算效率的一种手段，类似二叉查找树。不过二叉查找树中的数据是一维的，而K近邻的训练样本往往是多维的。所以，在建树的过程中，需要进行特征维度的选择。合理的方式是，每轮递归选择方差最大的特征S作为区分标准，以S的中位数作为根节点。这样能保证寻找最近邻的快速性，构建出均衡的二叉树。决阅读全文

posted @ 2021-01-11 20:05 lvdongjie-avatarx 阅读(437) 评论(0) 推荐(0) 编辑

2021年1月10日

Logistic Regression（逻辑回归）模型实现二分类和多分类

摘要：一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时，通常可以找到某一个判定边界去将样本点进行分类。例如：线性判定边界：非线性判定边界：三、二分类和sigmoid函数 sigmoid函数图像如下：四、损失函数 1. 定义 2. 极大似然估计上面是一种求损失函阅读全文

posted @ 2021-01-10 21:55 lvdongjie-avatarx 阅读(1830) 评论(0) 推荐(3) 编辑

KNN-k近邻算法原理

摘要： K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法，所谓，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。比如：判断一个人的人品，只需要观察与他来往最密切的几个人的人品好坏就可以得出，即“近朱者赤，近墨者黑”；KNN算法既可以应用于分类应用中，阅读全文

posted @ 2021-01-10 20:46 lvdongjie-avatarx 阅读(298) 评论(0) 推荐(0) 编辑

机器学习gridsearchcv(网格搜索)和kfold validation(k折验证)的区别与联系

摘要：网格搜索算法和K折交叉验证法是机器学习入门的时候遇到的重要的概念。网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。以决策树为例，当我们确定了要使用决策树算法的时候，为了能够更好地拟合和预测，我们需要调整它的参数。在决策树算法中，我们通常选择的参数是决策树的最大深度。于是我们会给出阅读全文

posted @ 2021-01-10 19:03 lvdongjie-avatarx 阅读(822) 评论(0) 推荐(0) 编辑

Sklearn中交叉验证 KFold

摘要：一. 交叉验证原理讲解 1. 设置验证集的原因在机器学习建模过程中，将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集，完全不参与训练，只是用于模型最终确定后，来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果，即验证集。验证集在每次训练集训练结束后，对模型的效果进行初阅读全文

posted @ 2021-01-10 18:59 lvdongjie-avatarx 阅读(175) 评论(0) 推荐(0) 编辑

多分类问题的评价指标

摘要：对于二分类问题，precision，recall，auc，f1_score的计算原理都比较熟悉，但是多分类问题的计算还是有一点小小的区别，在使用sklearn.metrics的时候需要注意一下；对于sklearn.metrics下的roc_auc_score, precision_score, r 阅读全文

posted @ 2021-01-10 18:52 lvdongjie-avatarx 阅读(450) 评论(0) 推荐(0) 编辑

此博客专攻人工智能。

公告