hbsygfz - 博客园

2018年7月25日

摘要：交叉验证是模型比较选择的一种常用方法，本文对此进行总结梳理。 1.交叉验证的基本思想交叉验证（cross validation）的基本思想就是重复地利用同一份数据。 2.交叉验证的作用 1）通过划分训练集和测试集，一定程度上减小了过拟合； 2）重复使用数据，尽可能多的从样本集上得到有用的信息。阅读全文

posted @ 2018-07-25 09:55 hbsygfz 阅读(1015) 评论(0) 推荐(0)

2018年7月24日

模型构建<2>:不平衡样本集的处理

摘要：分类预测建模都有一个基本的假设，即样本集中不同类别的样本个数基本相同，但是在实际任务中，经常会出现各类样本个数差别较大的情况，这样的样本集就是不平衡样本集，它对学习建模的性能会带来很大的影响，因此必须掌握常用的处理方法，本文针对这一点进行总结梳理。 1.什么是不平衡样本集？不平衡样本集（class 阅读全文

posted @ 2018-07-24 23:12 hbsygfz 阅读(759) 评论(0) 推荐(0)

2018年7月23日

模型构建<1>:模型评估-分类问题

摘要：对模型的评估是指对模型泛化能力的评估，主要通过具体的性能度量指标来完成。在对比不同模型的能力时，使用不同的性能度量指标可能会导致不同的评判结果，因此也就意味着，模型的好坏只是相对的，什么样的模型是较好的，不仅取决于数据和算法，还取决于任务需求。本文主要对分类模型的性能度量指标（方法）进行总结。本文阅读全文

posted @ 2018-07-23 23:03 hbsygfz 阅读(1162) 评论(0) 推荐(0)

2018年7月19日

机器学习<1>:基础概念

摘要：本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记，分享在此，作为机器学习系列的开篇文章，在本系列中，将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。 1.统计学习的基本概念 1 1.统计学习的定义统计学习是关于计算阅读全文

posted @ 2018-07-19 07:42 hbsygfz 阅读(488) 评论(0) 推荐(0)

2018年7月11日

概率论与数理统计基础<1>:随机事件与随机变量

摘要： Part1. 随机事件 1 1.随机试验随机试验 :可以在相同条件下重复进行，每次试验的结果不止一个，事先知道所有可能的结果但不确定是哪一个的试验。举例：重复的抛出一枚均匀的硬币就是一个随机试验，事先知道它的结果，但是不知道究竟是正面还是反面。 1 2.随机事件定义1：随机试验可能的结果，称为阅读全文

posted @ 2018-07-11 21:43 hbsygfz 阅读(1940) 评论(1) 推荐(0)

2018年7月4日

Linux基础命令总结

摘要：数据挖掘工程师并不是一直都在图形化界面中工作，并且随着大数据开源技术的发展，会有更多的任务需要在命令行环境下完成，比如在hadoop环境下进行数据文件的导入导出，在ubuntu环境下进行python库的安装与配置，因此就需要掌握一些基本的、常用的Linux命令。本文针对这一话题进行了总结梳理。 1. 阅读全文

posted @ 2018-07-04 21:44 hbsygfz 阅读(1041) 评论(2) 推荐(5)

2018年7月2日

数据准备<5>:变量筛选-实战篇

摘要：在上一篇文章 "《数据准备：变量筛选理论篇》" 中，我们介绍了变量筛选的三种方法：基于经验的方法、基于统计的方法和基于机器学习的方法，本文将介绍后两种方法在Python（sklearn）环境下的具体实现。 1.环境介绍版本：python2.7 工具：Spyder 开发人：hbsygfz 2.数据阅读全文

posted @ 2018-07-02 18:17 hbsygfz 阅读(2165) 评论(0) 推荐(0)

2018年7月1日

数据准备<4>:变量筛选-理论篇

摘要：在上一篇文章 "《数据准备：数据预处理》" 中，我们提到降维主要包括两种方式：基于特征选择的降维和基于维度转换的降维，其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选，是指从多个特征（变量）中筛选出显著的特征（变量），在分类预测问题中，就是筛选出对目标变量有预测能力的特征（变量）。本篇主要介绍阅读全文

posted @ 2018-07-01 23:31 hbsygfz 阅读(2762) 评论(1) 推荐(0)

2018年5月11日

数据准备<3>:数据预处理

摘要：数据预处理是指因为算法或者分析需要，对经过数据质量检查后的数据进行转换、衍生、规约等操作的过程。整个数据预处理工作主要包括五个方面内容：简单函数变换、标准化、衍生虚拟变量、离散化、降维。本篇文章将作展开介绍，并提供基于Python的代码实现。 0. 示例数据集说明 /labcenter/pyt 阅读全文

posted @ 2018-05-11 23:41 hbsygfz 阅读(3379) 评论(0) 推荐(0)

2018年5月2日

数据准备<2>:数据质量检查-实战篇

摘要：上一篇文章： "《数据质量检查理论篇》" 主要介绍了数据质量检查的基本思路与方法，本文作为补充，从实战角度出发，总结一套基于Python的数据质量检查模板。承接上文，仍然从重复值检查、缺失值检查、数据倾斜检查、异常值检查四方面进行描述。 1.环境介绍版本：python2.7 工具：Spyder 阅读全文

posted @ 2018-05-02 16:30 hbsygfz 阅读(1583) 评论(0) 推荐(0)

公告