随笔档案「2021年2月18日」：Q-Q 图 ... - Hiidiot

2021年2月18日

摘要： Q-Q（Quantile-Quantile）图是用来判断两个数据集是否来自相同的分布，比如正态分布、均匀分布。如下图： Q-Q 图 from sklearn.datasets import load_iris import matplotlib.pyplot as plt import seabor 阅读全文

posted @ 2021-02-18 15:16 Hiidiot 阅读(1429) 评论(0) 推荐(0)

信息熵、条件熵、信息增益与基尼指数

摘要：本文主要是对信息熵、信息增益、信息增益比和 Gini 指数的定义进行汇总，使之更加明确记忆。 1 信息熵和条件熵 1.1 信息熵熵（entropy）是表示随机变量不确定的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为 \(P(X=x_i) = p_i, \quad i=1, 阅读全文

posted @ 2021-02-18 15:00 Hiidiot 阅读(1136) 评论(0) 推荐(0)

Logistic 两种标签对应的损失函数

摘要： 1 标签 $y \in \{0, 1\}$ 通常我们在计算 Logistic Regression 经验风险损失是在假设数据集标签 $y \in {0, 1}$时，利用极大似然估计可以得到： \(L(w) = -\sum_{i=1}^{N}y_i\log p_i + (1-y_i)\log(1- 阅读全文

posted @ 2021-02-18 11:25 Hiidiot 阅读(332) 评论(0) 推荐(0)

梯度提升树：负梯度和残差

摘要： 1 提升树模型提升树是以分类树和回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法。以决策树为基函数的提升方法称为提升树（boosting tree）。提升树模型可以表示为决策树的加法模型 $$ f_M(x) 阅读全文

posted @ 2021-02-18 11:09 Hiidiot 阅读(1197) 评论(0) 推荐(0)