摘要: 来自实验楼《Pandas百题大冲关》,刷到一半当笔记记了 没有参考价值,见原链接https://www.shiyanlou.com/courses/running 创建DataFrame数据类型 通过Numpy数组创建DataFrame 通过字典数组创建DF 查看DF数据类型 预览DF的前后几行数据 阅读全文
posted @ 2018-12-05 16:05 forthlss 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 简单的来说: LabelEncoder()是标签编码,即是对不连续的数字或者文本进行编号,转换成连续的数值型变量,例如 输出: array([0,0,3,2,1]) OneHotEncoder()即独热编码,直观的来看就是有几个需要编码的状态就有几个比特,例如 5个需要编码的,编码结果就是[1,0, 阅读全文
posted @ 2018-12-03 22:51 forthlss 阅读(5639) 评论(0) 推荐(0) 编辑
摘要: 19-1-15更新,后面改了做法所以随笔烂尾了,具体内容不用看,想参考的可以看下面的参考链接 另外提供数据集在百度云,希望能帮到大家 链接: https://pan.baidu.com/s/1ojjVqjXS0cP2KAAyC-tsxg 提取码: semp 一、前言 完全是重现别人的过程,学习思路和 阅读全文
posted @ 2018-12-01 02:41 forthlss 阅读(4875) 评论(0) 推荐(0) 编辑
摘要: 一、前言 最近用spark学习机器学习算法,学习到关联规则APriori算法时(https://www.cnblogs.com/1113127139aaa/p/9926507.html)发现,算法是用python实现的,算法中需要进行On2的遍历,但当数据集过大(例如我们使用的TPC-H的linei 阅读全文
posted @ 2018-11-15 14:32 forthlss 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 我们使用TPCH生成测试数据集来进行数据挖掘算法的测试,这是学习记录 一、TPC-H简介 TPC-H是TPC提供的一个benchmark,用来模拟一个现实中的商业应用,可以生成一堆虚构的数据,且自带一些查询,可以导入到各种数据库中来模拟现实需求,检查性能 二、获取TPC-H文件 进入官网 http: 阅读全文
posted @ 2018-11-15 13:12 forthlss 阅读(2717) 评论(0) 推荐(0) 编辑
摘要: 18.11.15更新,因为代码用set的话集群跑不了,所以更改为一直用dataframe进行操作,发现Pandas和spark中对dataframe的操作不同,所以增加了pandas的group操作 最近进行关联规则算法的学习,使用的是tpch里的数据,取了customer和part两行数据如图 而 阅读全文
posted @ 2018-11-13 15:08 forthlss 阅读(1783) 评论(0) 推荐(0) 编辑
摘要: 参考博客:http://www.cnblogs.com/llhthinker/p/6719779.html 学习的别人的代码,用Python实现的Apriori算法,算法介绍见https://www.cnblogs.com/1113127139aaa/p/9926507.html 内容是实现Apri 阅读全文
posted @ 2018-11-12 09:31 forthlss 阅读(1831) 评论(0) 推荐(0) 编辑
摘要: 关联规则算法Apriori以及FP-growth学习 最近选择了关联规则算法进行学习,目标是先学习Apriori算法,再转FP-growth算法,因为Spark-mllib库支持的关联算法是FP,随笔用于边学边记录,完成后再进行整理 一、概述 关联规则是一种常见的推荐算法,用于从发现大量用户行为数据 阅读全文
posted @ 2018-11-09 15:16 forthlss 阅读(2259) 评论(0) 推荐(0) 编辑
摘要: 安装Cloudera CDH 安装时,要根据系统的版本选择CDH的版本,并且提前下载好要用的材料 我们使用的是centos7的系统,下载的是CDH5.15.1、CM5.15.1、JDK1.8.X、MySQL5.7.14,可以参照官网 的版本支持信息https://www.cloudera.com/d 阅读全文
posted @ 2018-11-06 22:55 forthlss 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 官网:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 参考:https://www.cnblogs.com/ltolstar/p/9724310.html ./hadoop 阅读全文
posted @ 2018-11-05 15:35 forthlss 阅读(128) 评论(0) 推荐(0) 编辑