摘要: Q-Q(Quantile-Quantile)图是用来判断两个数据集是否来自相同的分布,比如正态分布、均匀分布。如下图: Q-Q 图 from sklearn.datasets import load_iris import matplotlib.pyplot as plt import seabor 阅读全文
posted @ 2021-02-18 15:16 Hiidiot 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: 本文主要是对信息熵、信息增益、信息增益比和 Gini 指数的定义进行汇总,使之更加明确记忆。 1 信息熵和条件熵 1.1 信息熵 熵(entropy)是表示随机变量不确定的度量。 设 \(X\) 是一个取有限个值的离散随机变量,其概率分布为 \(P(X=x_i) = p_i, \quad i=1, 阅读全文
posted @ 2021-02-18 15:00 Hiidiot 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 1 标签 \(y \in \{0, 1\}\) 通常我们在计算 Logistic Regression 经验风险损失是在假设数据集标签 $y \in {0, 1}$时,利用极大似然估计可以得到: \(L(w) = -\sum_{i=1}^{N}y_i\log p_i + (1-y_i)\log(1- 阅读全文
posted @ 2021-02-18 11:25 Hiidiot 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 1 提升树模型 提升树是以分类树和回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。 提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。 提升树模型可以表示为决策树的加法模型 $$ f_M(x) 阅读全文
posted @ 2021-02-18 11:09 Hiidiot 阅读(1035) 评论(0) 推荐(0) 编辑