有多少人工,就有多少智能
摘要: 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。 注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 基尼指数的计算方法为:其中,pk表示样本属于第k个类别的概率 举例:根据天气 阅读全文
posted @ 2021-01-11 21:57 lvdongjie-avatarx 阅读(6482) 评论(1) 推荐(0) 编辑
摘要: https://blog.csdn.net/am290333566/article/details/81187124 机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的 阅读全文
posted @ 2021-01-11 20:46 lvdongjie-avatarx 阅读(544) 评论(0) 推荐(0) 编辑
摘要: KD树是提高K近邻法计算效率的一种手段,类似二叉查找树。不过二叉查找树中的数据是一维的,而K近邻的训练样本往往是多维的。所以,在建树的过程中,需要进行特征维度的选择。合理的方式是,每轮递归选择方差最大的特征S作为区分标准,以S的中位数作为根节点。这样能保证寻找最近邻的快速性,构建出均衡的二叉树。 决 阅读全文
posted @ 2021-01-11 20:05 lvdongjie-avatarx 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 一、逻辑回归 二、判定边界 当将训练集的样本以其各个特征为坐标轴在图中进行绘制时,通常可以找到某一个 判定边界 去将样本点进行分类。例如: 线性判定边界: 非线性判定边界: 三、二分类和sigmoid函数 sigmoid函数图像如下: 四、损失函数 1. 定义 2. 极大似然估计 上面是一种求损失函 阅读全文
posted @ 2021-01-10 21:55 lvdongjie-avatarx 阅读(1511) 评论(0) 推荐(3) 编辑
摘要: K近邻(K-nearst neighbors, KNN)是一种基本的机器学习算法,所谓,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。比如:判断一个人的人品,只需要观察与他来往最密切的几个人的人品好坏就可以得出,即“近朱者赤,近墨者黑”;KNN算法既可以应用于分类应用中, 阅读全文
posted @ 2021-01-10 20:46 lvdongjie-avatarx 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 网格搜索算法和K折交叉验证法是机器学习入门的时候遇到的重要的概念。 网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法。 以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。 于是我们会给出 阅读全文
posted @ 2021-01-10 19:03 lvdongjie-avatarx 阅读(716) 评论(0) 推荐(0) 编辑
摘要: 一. 交叉验证原理讲解 1. 设置验证集的原因 在机器学习建模过程中,将数据分为训练集和测试集。测试集合训练集是完全分开的两个数据集,完全不参与训练,只是用于模型最终确定后,来测试模型的效果。而训练集又要分出一部分数据用来验证模型的训练效果,即验证集。验证集在每次训练集训练结束后,对模型的效果进行初 阅读全文
posted @ 2021-01-10 18:59 lvdongjie-avatarx 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 对于二分类问题,precision,recall,auc,f1_score的计算原理都比较熟悉,但是多分类问题的计算还是有一点小小的区别,在使用sklearn.metrics的时候需要注意一下; 对于sklearn.metrics下的roc_auc_score, precision_score, r 阅读全文
posted @ 2021-01-10 18:52 lvdongjie-avatarx 阅读(430) 评论(0) 推荐(0) 编辑
摘要: GridSearchCV 简介: GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。 但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算 阅读全文
posted @ 2021-01-10 18:42 lvdongjie-avatarx 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 面试的时候经常被问的一个问题是 AUC和F1 score有什么区别。笔者看了很多博文,感觉相当一部分在分析混淆矩阵和auc、f1的定义上花了太多笔墨,但对于两者的区别和联系,有种到了门前就差临门一脚的感觉。因此笔者去stack overflow上找了很多回答,感觉收获很多,在此简明扼要的写一下收获。 阅读全文
posted @ 2021-01-10 18:18 lvdongjie-avatarx 阅读(1918) 评论(0) 推荐(1) 编辑