随笔分类 -  数据挖掘

摘要:1 混淆矩阵衍生指标 上面提到的ACC、PPV、TPR、FPR等指标,都是对某一给定分类结果的评估,而绝大多数模型都能产生好多份分类结果(通过调整阈值),所以它们的评估是单一的、片面的,并不能全面地评估模型的效果。因此,需要引入新的评估指标,来综合全面地评估模型,它们就是如下所述,由混淆矩阵衍生的一 阅读全文
posted @ 2020-06-16 15:35 1k-yang 阅读(3618) 评论(0) 推荐(1) 编辑
摘要:1 二分类模型评估 1.1 混淆矩阵 在完成机器学习建模之后,我们需要用一些指标,来度量模型性能的好坏(即模型的泛化能力),以便对比不同模型,从而知道哪个模型相对好,哪个模型相对差,并通过这些指标来进一步调参逐步优化模型。对于分类和回归两类有监督学习评判标准如下,这里主要讨论与分类相关的一些指标。 阅读全文
posted @ 2020-06-11 09:40 1k-yang 阅读(2186) 评论(0) 推荐(1) 编辑
摘要:1 数据挖掘技术基础 1.1 描述性统计分析 在现实工作中,不是所有的问题都需要用建模来解决,一些简单的问题如果能用简单方法,就不要使用复杂的解决方案。这样既提升了效率,也减少了出错的可能。即使是非常复杂的问题,我们往往也需要首先用简单的方法,对问题进行一个概括和总览 —— 描述性统计。 描述性统计 阅读全文
posted @ 2020-06-09 10:34 1k-yang 阅读(619) 评论(0) 推荐(0) 编辑
摘要:1 数据挖掘概要 1.1 起源 功能强大的数据收集与存储工具的快速发展,使得可以分析使用的数据呈爆炸式增长,而如何从这些数据中发现有价值的信息,促使了数据挖掘技术的诞生。 1.2 定义 数据挖掘(Data Mining)就是从大量的数据中,提取隐含的,以前未知的,可能有用的信息的过程。 1.3 目标 阅读全文
posted @ 2020-05-29 09:51 1k-yang 阅读(787) 评论(0) 推荐(0) 编辑