随笔分类 - 机器学习
摘要:0 前言 本文主要讲述使用基尼指数构建二叉决策树的算法,并给出例题一步步解析,帮助读者理解。 本文所使用的数据集:贷款.CSV。 读者需要具备的知识:基尼指数计算。 1 基于基尼指数的分类树构建算法 选择最优特征进行分裂: 对于决策树的每个节点,遍历数据集中的所有特征。对于每个特征,考虑其所有可能的
阅读全文
摘要:0 前言 本文主要介绍基尼指数的计算公式及计算方法,并举出相关例题帮助理解。 读者需要提前了解:信息熵。 数据集:贷款.CSV。 1 基尼指数简述 基尼指数(Gini Index)是一个在多个领域都有应用的重要指标,但其主要应用之一是在决策树算法中,用于衡量数据集的不纯度或混乱程度。 基尼指数也被称
阅读全文
摘要:0 前言 本文主要讲述了决策树C4.5算法构建原理并举例说明。 读者需要具备的知识有:信息熵、条件熵、信息增益、信息增益比。 本文所使用的数据集为:西瓜数据集 1.2节。 1 C4.5算法流程 准备数据集: 输入数据集包含多个样本,每个样本具有多个特征(属性)和一个目标类别标签。 设置阈值: 初始化
阅读全文
摘要:0 前言 本文主要介绍决策树ID3算法,并举出构建示例帮助理解。 读者需要具备的知识:信息熵、条件熵、信息增益。 本文使用数据集为:游玩数据集 1.1节、西瓜数据集 1.2节。 1 ID3算法简述 ID3(Iterative Dichotomiser 3)算法是一种经典的决策树学习算法,由Ross
阅读全文
摘要:0 前言 本文主要介绍决策树信息增益比的计算,并给出例子帮助读者理解。 读者需要具备:信息熵、条件熵、信息增益 相关知识。 本文使用数据集:游玩数据集 1.1节。 1 信息增益比计算公式 2 信息增益比计算 2.1 gR(play,outlook)的计算 根据信息增益(跳转)相关知识,得出: 特征o
阅读全文
摘要:0 前言 本文主要介绍信息增益的计算公式并举出若干例子帮助理解。 读者需要具备的知识有:信息熵、条件熵。 本文所示用的数据集为:游玩数据集 1.1节 1 信息增益计算公式 g(D,A)表示在条件A下对于目标变量D的信息增益。 H(D)表示随机变量D的信息熵。 H(D|A)表示在随机变量A条件下对于目
阅读全文
摘要:0 前言 本文主要介绍决策树条件熵的计算并给出若干例子帮助理解。 读者需要具备信息熵计算知识,若不了解请看:信息熵 1 条件熵 2 数据集 游玩数据集,请看:数据集 1.1节 3 条件熵的计算 使用所给游玩数据集。计算H(play|outlook)的条件熵(在Y随机变量为outlook条件下,X随机
阅读全文
摘要:0 前言 为了便于学习决策树信息熵相关知识,笔者编写了一个专门用于计算变量信息熵、条件熵、信息增益、信息增益比的程序,方便提升学习效率。 程序中包含了计算过程的数据和详细信息以及最终计算结果。 编程语言为Python,搭配CSV数据格式使用。 1 数据集 1.1 游玩数据集 根据天气状况判断是否出去
阅读全文
摘要:0 前言 本文主要讲述了决策树背后的信息熵的公式含义及计算方式,并列举出多道例题帮助理解。 1 信息熵的定义 1.1 信息熵公式 笔者使用下图(1-1)直观理解信息熵的含义。 信息熵越大,表示该随机变量的不确定性越高。对于均匀分布,信息熵达到最大值。 1.2 证明:对于均匀分布,信息熵最大 笔者用一
阅读全文
摘要:0 前言 本文主要讲解KNN算法中用于快速检索最近元素的KD树的构建及查找原理。 为了达到最佳阅读效果,请读者按照本文顺序阅读,文章使用了大量图片帮助读者理解。 1 背景 1.1 为什么要使用KD-Tree? k近邻法(KNN)最简单的实现方法是线性扫描。这时要计算输入实例与每一个训练实例的距离。当
阅读全文
摘要:0.前言 本文主要介绍了最小二乘法公式推导,并且使用Python语言实现线性拟合。 读者需要具备高等数学、线性代数、Python编程知识。 请读者按照文章顺序阅读。 绘图软件为:geogebra5。 1.原理推导 1.1应用 最小二乘法在购房中的应用通常涉及房价预测和房屋定价方面。这种统计方法通过拟
阅读全文