摘要: 交叉验证是模型比较选择的一种常用方法,本文对此进行总结梳理。 1.交叉验证的基本思想 交叉验证(cross validation) 的基本思想就是重复地利用同一份数据。 2.交叉验证的作用 1)通过划分训练集和测试集,一定程度上减小了过拟合; 2)重复使用数据,尽可能多的从样本集上得到有用的信息。 阅读全文
posted @ 2018-07-25 09:55 hbsygfz 阅读(850) 评论(0) 推荐(0) 编辑
摘要: 分类预测建模都有一个基本的假设,即样本集中不同类别的样本个数基本相同,但是在实际任务中,经常会出现各类样本个数差别较大的情况,这样的样本集就是不平衡样本集,它对学习建模的性能会带来很大的影响,因此必须掌握常用的处理方法,本文针对这一点进行总结梳理。 1.什么是不平衡样本集? 不平衡样本集(class 阅读全文
posted @ 2018-07-24 23:12 hbsygfz 阅读(708) 评论(0) 推荐(0) 编辑
摘要: 对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成。在对比不同模型的能力时,使用不同的性能度量指标可能会导致不同的评判结果,因此也就意味着,模型的好坏只是相对的,什么样的模型是较好的,不仅取决于数据和算法,还取决于任务需求。本文主要对分类模型的性能度量指标(方法)进行总结。 本文 阅读全文
posted @ 2018-07-23 23:03 hbsygfz 阅读(1081) 评论(0) 推荐(0) 编辑
摘要: 本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记,分享在此,作为机器学习系列的开篇文章,在本系列中,将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。 1.统计学习的基本概念 1 1.统计学习的定义 统计学习 是关于计算 阅读全文
posted @ 2018-07-19 07:42 hbsygfz 阅读(454) 评论(0) 推荐(0) 编辑
摘要: Part1. 随机事件 1 1.随机试验 随机试验 :可以在相同条件下重复进行,每次试验的结果不止一个,事先知道所有可能的结果但不确定是哪一个的试验。 举例:重复的抛出一枚均匀的硬币就是一个随机试验,事先知道它的结果,但是不知道究竟是正面还是反面。 1 2.随机事件 定义1:随机试验可能的结果,称为 阅读全文
posted @ 2018-07-11 21:43 hbsygfz 阅读(1775) 评论(1) 推荐(0) 编辑
摘要: 数据挖掘工程师并不是一直都在图形化界面中工作,并且随着大数据开源技术的发展,会有更多的任务需要在命令行环境下完成,比如在hadoop环境下进行数据文件的导入导出,在ubuntu环境下进行python库的安装与配置,因此就需要掌握一些基本的、常用的Linux命令。本文针对这一话题进行了总结梳理。 1. 阅读全文
posted @ 2018-07-04 21:44 hbsygfz 阅读(1015) 评论(2) 推荐(5) 编辑
摘要: 在上一篇文章 "《数据准备:变量筛选 理论篇》" 中,我们介绍了变量筛选的三种方法:基于经验的方法、基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现。 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据 阅读全文
posted @ 2018-07-02 18:17 hbsygfz 阅读(2067) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章 "《数据准备:数据预处理》" 中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量)。本篇主要介绍 阅读全文
posted @ 2018-07-01 23:31 hbsygfz 阅读(2495) 评论(1) 推荐(0) 编辑
摘要: 数据预处理 是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换、衍生、规约等操作的过程。整个数据预处理工作主要包括 五个方面内容 :简单函数变换、标准化、衍生虚拟变量、离散化、降维。本篇文章将作展开介绍,并提供基于Python的代码实现。 0. 示例数据集说明 /labcenter/pyt 阅读全文
posted @ 2018-05-11 23:41 hbsygfz 阅读(3226) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章: "《数据质量检查 理论篇》" 主要介绍了数据质量检查的基本思路与方法,本文作为补充,从实战角度出发,总结一套基于Python的数据质量检查模板。 承接上文,仍然从重复值检查、缺失值检查、数据倾斜检查、异常值检查四方面进行描述。 1.环境介绍 版本:python2.7 工具:Spyder 阅读全文
posted @ 2018-05-02 16:30 hbsygfz 阅读(1504) 评论(0) 推荐(0) 编辑