摘要:
一、前言 最近用spark学习机器学习算法,学习到关联规则APriori算法时(https://www.cnblogs.com/1113127139aaa/p/9926507.html)发现,算法是用python实现的,算法中需要进行On2的遍历,但当数据集过大(例如我们使用的TPC-H的linei 阅读全文
摘要:
我们使用TPCH生成测试数据集来进行数据挖掘算法的测试,这是学习记录 一、TPC-H简介 TPC-H是TPC提供的一个benchmark,用来模拟一个现实中的商业应用,可以生成一堆虚构的数据,且自带一些查询,可以导入到各种数据库中来模拟现实需求,检查性能 二、获取TPC-H文件 进入官网 http: 阅读全文