摘要:
【导读】在之前的《数据挖掘概念与技术 第2章》的文章中我们介绍了Q-Q图的概念,并且通过调用现成的python函数, 画出了Q-Q图, 验证了Q-Q图的两个主要作用,1. 检验一列数据是否符合正态分布 2. 检验两列数据是否符合同一分布。本篇文章将更加全面的为大家介绍QQ图的原理以及自己手写函数实现 阅读全文
摘要:
概述 获取第三章的思维导图文件, jupyter代码文件和数据集可以在我们的公众号"数据臭皮匠" 中回复"第三章1" 获取 1.数据清理 缺失值处理 处理缺失值得几种方法,了解下就好,深究也没意思,需要在建模的过程中逐步体会每一种方法的优缺点,换了缺失值的处理方法,可能对预测结果也没啥影响,也可能影 阅读全文
摘要:
python安装第三方库其实挺简单的, 一句话总结:pip install 库名 (如pip install jieba 安装结巴库) 但会有一些安装的细节, 本文将详细展开如何pip安装第三方库的详细细节 1.在命令行下安装第三方库(以jieba库为例) 1.1 首先检查下本地是否已安装jieba 阅读全文
摘要:
我们上次在《kaggle新手在平台学习大神的代码》(https://www.cnblogs.com/shujuchoupijiang/p/14204338.html)一文中介绍了如何在kaggle中学习大神的代码, 并简单介绍了房价预测, 泰坦尼克号生存预测两个比赛, 可以在文末获取该文链接。 本文 阅读全文
摘要:
【导读】之前读过我们《数据挖掘概念与技术 第2章》的同学,可能还记得我们在文章的最后给大家分享过基本统计描述图形的代码实现,比如Q-Q分位图、直方图、散点图等等。数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息,也是数据分析师必备技能之一。后续我们会系统的给大家介绍这方面的基础知识,包括 阅读全文
摘要:
【导读】Mysql是数据分析师入门级的技能之一,对于很多小白同学来说,可能还没有机会接触SQL知识。那么我们如何熟悉和练习SQL呢,今天教大家安装两个软件:MySQL和Navicat。后续我们会推出SQL系列教程供大家学习。等不及的同学也可以自行在网上搜索教程配合我们的工具进行学习哦! 你可以在我们 阅读全文
摘要:
【导读】今天我们继续以《数据挖掘概念与技术》(机械工业出版社,作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)一书为基础,配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础,但却是后续不断会用到的一些概念和知识。笔者 阅读全文
摘要:
【导读】在给大家分享知识的过程中,我们也会分享一些小技巧,能够帮助大家在学习过程中有更好的体验。之前我们给大家分享了anaconda安装教程以及jupyter notebook使用方法,今天我们为大家介绍如何修改jupyter的启动目录。 Part 01、为什么修改jupyter的启动目录? jup 阅读全文
摘要:
原创:数据臭皮匠 【导读】Kaggle ,作为听说它很牛X但从未接触过的同学,可能仅仅了解这是一个参加数据挖掘比赛的网站,殊不知Kaggle也会有赛题相关的数据集, 比如我们熟知的房价预测、泰坦尼克号乘客生存预测、手写数字识别等,并且每个比赛下面都会有大神分享自己的思路和代码,如果能利用好这些资源, 阅读全文
摘要:
【导读】在给大家分享基础入门知识的同时,我们也会带领大家去阅读一些相关领域的书籍。以做阅读理解的态度为大家剖析书中知识点,相信你如果能够跟上我们的节奏一起学习,一定会有所收获。今天给大家分享的这本书是机械工业出版社出版的《数据挖掘概念与技术》(作者:Jiawei Han;Micheline Kamb 阅读全文