该文被密码保护。 阅读全文
posted @ 2017-10-06 00:55 mining_bw 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 1,从看各种不同的R语言教材,到做完这个项目,大概在20个小时以内,应该符合之前的要求 2,开始的时候思维还在jupyter notebook做机器学习的模式了,不过就像是学习游泳,也不是说学了自由泳,就不会学蛙泳了,只是某种练习,坚持和习惯 3,Rstudio还是狠强大,R当然也狠强大,各种神包, 阅读全文
posted @ 2017-06-05 17:17 mining_bw 阅读(2329) 评论(0) 推荐(0) 编辑
摘要: 环境仍然是Jupyter Notebook, py2.7,至今没发现拿python做数据分析,有比这个笔记本更好用的工具。 此篇文章呢,主要是通过一个小的机器学习的项目,来说明一下,相关的大概步骤和所涉及到各种概念。 原始数据:有如下特点 波士顿房屋这些数据于1978年开始统计,共506个数据点,涵 阅读全文
posted @ 2017-05-16 01:38 mining_bw 阅读(21477) 评论(0) 推荐(0) 编辑
摘要: 这个任务同样是在Jupyter Notebook中完成, 项目目的是通过前面的所有特征列,当然去掉序号列,然后预测最后一列,收入'income',究竟是大于50K,还是小于等于50K. 第一步,探索数据,像探索性统计里经常涉及到的频数,均值,众数或者众位数相关的计算,我们通过这些统计指标,使用pyt 阅读全文
posted @ 2017-05-04 20:11 mining_bw 阅读(1313) 评论(1) 推荐(0) 编辑
摘要: 机器学习,特征工程 阅读全文
posted @ 2017-05-04 17:59 mining_bw 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 赶脚Navicat Prenium在处理体积比较大的数据文件的时候,要比下面这个应用更快一些。 基础查询:连接MySQL58数据库,本地服务连接 基础表和一些相关解释,当然这是查看每一张表后手工做的解释,因为从表名本身无法推测表的实际内容: 内连接,统计函数,别名,排序,这些频数比较高的SQL查询语 阅读全文
posted @ 2017-04-10 21:06 mining_bw 阅读(1901) 评论(0) 推荐(0) 编辑
摘要: 爬虫抓的原始数据: 案例分析要求和一点点数据处理: 主要是为了展示一下切片器的效果哈,实现不同列项选择性查看,并且实现柱状图和透视表的联动 阅读全文
posted @ 2017-04-10 20:46 mining_bw 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 爬虫爬到的基础数据,假设如下: 使用VLOOKUP函数整理数据: 加入筛选条件: 加入新的统计参数,区域 重新分析 加入新列的数据: 阅读全文
posted @ 2017-04-10 20:37 mining_bw 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 数据分析的基本工具 阅读全文
posted @ 2017-04-10 20:22 mining_bw 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 之前一直觉得这个机器学习就是把一堆数据扔给机器(代码)然后它能产生出新的神奇来,不过很多事情只有做了才能了解它大概是个什么东西 首先去Kaggle上找数据,一般数据挖掘这块,基本上至少有一个训练集和一个测试集, 下载这个train和test文件,是不是觉得很熟悉,这跟KNIME做决策树,贝叶斯的数据 阅读全文
posted @ 2017-03-23 00:06 mining_bw 阅读(679) 评论(0) 推荐(0) 编辑