【TPC-H】工具安装与生成数据

1. 安装TPC-H工具

  • 安装 git
apt install git
  • 安装gcc
apt install gcc
  • 下载 TPC-H 数据生成代码

在服务器上自己手动创建目录:/root/tpcH/tools/。再此目录下执行如下脚本

git clone https://github.com/gregrahn/tpch-kit.git
  • 进入数据生成工具代码目录
cd tpch-kit/dbgen
  • 编译数据生成工具代码

若未安装make,执行 apt install make

make

注:如make时报如下的错误:

gcc -g -DDBNAME=\"dss\" -DLINUX -DPOSTGRESQL -DTPCH -DRNG_TEST -D_FILE_OFFSET_BITS=64   -c -o build.o build.c
make: gcc: Command not found
make: *** [<builtin>: build.o] Error 127

解决方法:重新安装build-essential软件包:

sudo apt-get update

sudo apt-get install build-essential
------------------------------------------
若如上的执行还报错,请再次增加执行如下命令:
(1)尝试修复损坏的软件包
sudo apt-get install -f

(2)清理不必要的依赖关系和已经安装的软件包:
sudo apt-get autoremove

(3)再次执行
sudo apt-get install build-essential

 

2. 生成数据

  • 编译成功后,您可以使用如下代码查看代码生成工具的相关参数。
./dbgen --help
  • 本次测试仅生成 1 GB 数据,所以运行如下代码生成数据。
./dbgen -vf -s 1
如您需要生成更多数据量的数据,可以调整 SF 的参数,例如您可以使用如下代码生成 1 T 数据
./dbgen -vf -s 1000
  • 数据生成后,您可以使用如下代码查看生成的文件。可以看到生成工具生成了 8 个数据文件,每个数据文件都对应一张数据集中的表。
ls | grep '.*.tbl'

注意:tpc-h在生成数据时,不能指定生成的数据存放到某个文件夹,因此需要手动去移动xxx.tbl到自己想要的文件下

3、将数据移动到其他文件下

#创建data,存放生成的数据
mkdir -p /root/tpcH/data
#将生成的数据,移动到创建的data下
mv /root/tpcH/tools/tpch-kit/dbgen/*.tbl /root/tpcH/data/

 

posted @ 2022-05-12 15:54  Syw_文  阅读(1221)  评论(0编辑  收藏  举报