摘要: 一、前言 最近用spark学习机器学习算法,学习到关联规则APriori算法时(https://www.cnblogs.com/1113127139aaa/p/9926507.html)发现,算法是用python实现的,算法中需要进行On2的遍历,但当数据集过大(例如我们使用的TPC-H的linei 阅读全文
posted @ 2018-11-15 14:32 forthlss 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 我们使用TPCH生成测试数据集来进行数据挖掘算法的测试,这是学习记录 一、TPC-H简介 TPC-H是TPC提供的一个benchmark,用来模拟一个现实中的商业应用,可以生成一堆虚构的数据,且自带一些查询,可以导入到各种数据库中来模拟现实需求,检查性能 二、获取TPC-H文件 进入官网 http: 阅读全文
posted @ 2018-11-15 13:12 forthlss 阅读(2717) 评论(0) 推荐(0) 编辑