2021 年 1月 11 日随笔档案 - lvdongjie-avatarx

2021年1月11日

摘要：基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0. 基尼指数的计算方法为：其中，pk表示样本属于第k个类别的概率举例：根据天气阅读全文

posted @ 2021-01-11 21:57 lvdongjie-avatarx 阅读(6482) 评论(1) 推荐(0) 编辑

决策树里的信息熵

摘要： https://blog.csdn.net/am290333566/article/details/81187124 机器学习中，绕不开的一个概念就是熵 (Entropy)，信息熵。信息熵常被用来作为一个系统的信息含量的量化指标，从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的阅读全文

posted @ 2021-01-11 20:46 lvdongjie-avatarx 阅读(544) 评论(0) 推荐(0) 编辑

KD树与决策树的区别与联系

摘要： KD树是提高K近邻法计算效率的一种手段，类似二叉查找树。不过二叉查找树中的数据是一维的，而K近邻的训练样本往往是多维的。所以，在建树的过程中，需要进行特征维度的选择。合理的方式是，每轮递归选择方差最大的特征S作为区分标准，以S的中位数作为根节点。这样能保证寻找最近邻的快速性，构建出均衡的二叉树。决阅读全文

posted @ 2021-01-11 20:05 lvdongjie-avatarx 阅读(418) 评论(0) 推荐(0) 编辑

lvdongjie-avatarx

此博客专攻人工智能。

公告