该文被密码保护。 阅读全文
摘要:
1,从看各种不同的R语言教材,到做完这个项目,大概在20个小时以内,应该符合之前的要求 2,开始的时候思维还在jupyter notebook做机器学习的模式了,不过就像是学习游泳,也不是说学了自由泳,就不会学蛙泳了,只是某种练习,坚持和习惯 3,Rstudio还是狠强大,R当然也狠强大,各种神包, 阅读全文
摘要:
环境仍然是Jupyter Notebook, py2.7,至今没发现拿python做数据分析,有比这个笔记本更好用的工具。 此篇文章呢,主要是通过一个小的机器学习的项目,来说明一下,相关的大概步骤和所涉及到各种概念。 原始数据:有如下特点 波士顿房屋这些数据于1978年开始统计,共506个数据点,涵 阅读全文
摘要:
这个任务同样是在Jupyter Notebook中完成, 项目目的是通过前面的所有特征列,当然去掉序号列,然后预测最后一列,收入'income',究竟是大于50K,还是小于等于50K. 第一步,探索数据,像探索性统计里经常涉及到的频数,均值,众数或者众位数相关的计算,我们通过这些统计指标,使用pyt 阅读全文
摘要:
机器学习,特征工程 阅读全文
摘要:
赶脚Navicat Prenium在处理体积比较大的数据文件的时候,要比下面这个应用更快一些。 基础查询:连接MySQL58数据库,本地服务连接 基础表和一些相关解释,当然这是查看每一张表后手工做的解释,因为从表名本身无法推测表的实际内容: 内连接,统计函数,别名,排序,这些频数比较高的SQL查询语 阅读全文
摘要:
爬虫抓的原始数据: 案例分析要求和一点点数据处理: 主要是为了展示一下切片器的效果哈,实现不同列项选择性查看,并且实现柱状图和透视表的联动 阅读全文
摘要:
爬虫爬到的基础数据,假设如下: 使用VLOOKUP函数整理数据: 加入筛选条件: 加入新的统计参数,区域 重新分析 加入新列的数据: 阅读全文
摘要:
数据分析的基本工具 阅读全文
摘要:
之前一直觉得这个机器学习就是把一堆数据扔给机器(代码)然后它能产生出新的神奇来,不过很多事情只有做了才能了解它大概是个什么东西 首先去Kaggle上找数据,一般数据挖掘这块,基本上至少有一个训练集和一个测试集, 下载这个train和test文件,是不是觉得很熟悉,这跟KNIME做决策树,贝叶斯的数据 阅读全文