摘要:
多条ROC曲线绘制函数 def multi_models_roc(names, sampling_methods, colors, X_test, y_test, save=True, dpin=100): """ 将多个机器模型的roc图输出到一张图上 Args: names: list, 多个模 阅读全文
摘要:
一.什么是熵Ⅰ.信息量首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢? 我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为 阅读全文
摘要:
一、数据挖掘的五大流程: 1、获取数据 2、数据预处理 3、特征工程 4、建模,测试模型并预测结果 5、 上线,验证模型效果 二、数据预处理 Ⅰ、 数据无量纲化 定义: 在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“ 阅读全文
摘要:
Imblearn package study 准备知识 1 Compressed Sparse RowsCSR 压缩稀疏的行 过采样Over-sampling 1 实用性的例子 11 朴素随机过采样 12 从随机过采样到SMOTE与ADASYN 13 SMOTE的变体 14 数学公式 下采样Unde 阅读全文
摘要:
1.什么是ROC: ROC曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。 2.如果学习ROC,首先必须知道什么: 要学习ROC曲线首先得知道什么是TP 阅读全文
摘要:
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。 1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接, 阅读全文
摘要:
相关文章: 数据挖掘领域十大经典算法之—C4.5算法(超详细附代码)数据挖掘领域十大经典算法之—K-Means算法(超详细附代码)数据挖掘领域十大经典算法之—SVM算法(超详细附代码)数据挖掘领域十大经典算法之—Apriori算法数据挖掘领域十大经典算法之—EM算法数据挖掘领域十大经典算法之—Pag 阅读全文
摘要:
摘自数据常青藤 样本分布不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和鲁棒性将很差。 样本分布不平衡主要在于不同类别间的样本比例差异,以笔者的工作经验看,如果不同分类间的 阅读全文
摘要:
类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这 阅读全文
摘要:
机器学习之类别不平衡问题 (1) —— 各种评估指标 机器学习之类别不平衡问题 (2) —— ROC和PR曲线 机器学习之类别不平衡问题 (3) —— 采样方法 完整代码 前两篇主要谈类别不平衡问题的评估方法,重心放在各类评估指标以及ROC和PR曲线上,只有在明确了这些后,我们才能据此选择具体的处理 阅读全文