08 2024 档案
摘要:0 前言 为了便于学习决策树信息熵相关知识,笔者编写了一个专门用于计算变量信息熵、条件熵、信息增益、信息增益比的程序,方便提升学习效率。 程序中包含了计算过程的数据和详细信息以及最终计算结果。 编程语言为Python,搭配CSV数据格式使用。 1 数据集 1.1 游玩数据集 根据天气状况判断是否出去
阅读全文
摘要:0 前言 本文主要讲述了决策树背后的信息熵的公式含义及计算方式,并列举出多道例题帮助理解。 1 信息熵的定义 1.1 信息熵公式 笔者使用下图(1-1)直观理解信息熵的含义。 信息熵越大,表示该随机变量的不确定性越高。对于均匀分布,信息熵达到最大值。 1.2 证明:对于均匀分布,信息熵最大 笔者用一
阅读全文
摘要:0 前言 本文主要讲解KNN算法中用于快速检索最近元素的KD树的构建及查找原理。 为了达到最佳阅读效果,请读者按照本文顺序阅读,文章使用了大量图片帮助读者理解。 1 背景 1.1 为什么要使用KD-Tree? k近邻法(KNN)最简单的实现方法是线性扫描。这时要计算输入实例与每一个训练实例的距离。当
阅读全文
摘要:0.前言 本文主要介绍了最小二乘法公式推导,并且使用Python语言实现线性拟合。 读者需要具备高等数学、线性代数、Python编程知识。 请读者按照文章顺序阅读。 绘图软件为:geogebra5。 1.原理推导 1.1应用 最小二乘法在购房中的应用通常涉及房价预测和房屋定价方面。这种统计方法通过拟
阅读全文