随笔分类 - 数学基础
摘要:SVM 由线性分类开始 理解SVM,咱们必须先弄清楚一个概念:线性分类器。 给定一些数据点,它们分别属于两个不同的类,现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点,用y表示类别(y可以取1或者-1,分别代表两个不同的类),一个线性分类器的目标是要在n维的数据空间中找到一个超平面(h
阅读全文
摘要:https://blog.csdn.net/choven_meng/article/details/82878018 一、决策树模型与学习 1、决策树模型 2、决策树学习 二、特征选择 1、信息增益 2、信息增益率 三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法 四、决策树停止
阅读全文
摘要:一、基尼指数的概念 基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 二、基尼系数的计算公式 基尼指数的计算公式为: 三、计算示
阅读全文
摘要:基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。 注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0. 基尼指数的计算方法为:其中,pk表示样本属于第k个类别的概率 举例:根据天气
阅读全文
摘要:https://blog.csdn.net/am290333566/article/details/81187124 机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的
阅读全文
摘要:现在要开始讲到分布了,当然首先要谈的肯定是二项分布,在此之前,让我们先认识一下我们的前辈。 瑞士数学家雅克·伯努利(Jacques Bernoulli,1654~1705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作《推测术》。在书中,伯
阅读全文