摘要: 1 混淆矩阵衍生指标 上面提到的ACC、PPV、TPR、FPR等指标,都是对某一给定分类结果的评估,而绝大多数模型都能产生好多份分类结果(通过调整阈值),所以它们的评估是单一的、片面的,并不能全面地评估模型的效果。因此,需要引入新的评估指标,来综合全面地评估模型,它们就是如下所述,由混淆矩阵衍生的一 阅读全文
posted @ 2020-06-16 15:35 1k-yang 阅读(3235) 评论(0) 推荐(0) 编辑
摘要: 1 二分类模型评估 1.1 混淆矩阵 在完成机器学习建模之后,我们需要用一些指标,来度量模型性能的好坏(即模型的泛化能力),以便对比不同模型,从而知道哪个模型相对好,哪个模型相对差,并通过这些指标来进一步调参逐步优化模型。对于分类和回归两类有监督学习评判标准如下,这里主要讨论与分类相关的一些指标。 阅读全文
posted @ 2020-06-11 09:40 1k-yang 阅读(2033) 评论(0) 推荐(0) 编辑
摘要: 1 数据挖掘技术基础 1.1 描述性统计分析 在现实工作中,不是所有的问题都需要用建模来解决,一些简单的问题如果能用简单方法,就不要使用复杂的解决方案。这样既提升了效率,也减少了出错的可能。即使是非常复杂的问题,我们往往也需要首先用简单的方法,对问题进行一个概括和总览 —— 描述性统计。 描述性统计 阅读全文
posted @ 2020-06-09 10:34 1k-yang 阅读(571) 评论(0) 推荐(0) 编辑
摘要: 1 数据挖掘概要 1.1 起源 功能强大的数据收集与存储工具的快速发展,使得可以分析使用的数据呈爆炸式增长,而如何从这些数据中发现有价值的信息,促使了数据挖掘技术的诞生。 1.2 定义 数据挖掘(Data Mining)就是从大量的数据中,提取隐含的,以前未知的,可能有用的信息的过程。 1.3 目标 阅读全文
posted @ 2020-05-29 09:51 1k-yang 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 1 模块 1.1 模块的定义 在编程语言中,代码块 >> 函数 >> 类 >> 模块 >> 包(库),是逐级封装,层层调用的关系。在Python中,一个.py文件就是一个模块,模块是比类更高一级的封装。 代码块:小至一行代码,大到一个模块,一个函数……都是代码块,此处指一行代码 函数:函数是指封装好 阅读全文
posted @ 2020-03-30 11:41 1k-yang 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 先构造一个数据集,代码如下: 然后对数据集进行EDA分析,过程和代码如下: 阅读全文
posted @ 2020-03-23 11:23 1k-yang 阅读(741) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1 读入思路 不管对数据是否熟悉,是否有数据字典,下图的读数思路都可以通用。 2 读入代码 阅读全文
posted @ 2020-03-20 10:46 1k-yang 阅读(1171) 评论(0) 推荐(0) 编辑
摘要: 1 函数的定义 函数是一段具有特定功能的、可复用的语句组。python中函数用函数名来表示,并通过函数名进行功能调用。它是一种功能抽象,与黑盒类似,所以只要了解函数的输入输出方式即可,不用深究内部实现原理。函数的最突出优点是: 实现代码复用:减少重复性工作 保证代码一致:只需要修改该函数代码,则所有 阅读全文
posted @ 2020-02-17 23:54 1k-yang 阅读(2198) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1 创建和重定义变量 创建和重定义变量,是SAS中最受人欢迎的功能之一,你可以用以下基本形式的赋值语句,来创建和重定义变量: variable = expression ; variable 是变量名,可以是新变量或已有变量。expression 可以是常量、另一个变量 或 数学表达式。 阅读全文
posted @ 2020-01-04 14:50 1k-yang 阅读(2193) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1 临时和永久数据集 SAS数据集名称 SAS数据集有临时和永久两种存在方式。所有的SAS数据集都有一个两级名称,两个层级之间用句点.分隔。 第一层级:逻辑库引用名 第二层级:数据集名称 注意,两级名称出现在 DATA 语句和 DATA= 选项中 逻辑库引用名、数据集名称都遵循SAS命名 阅读全文
posted @ 2020-01-03 10:00 1k-yang 阅读(4555) 评论(0) 推荐(0) 编辑