HiBench学习笔记

HiBench资源及教程：https://github.com/intel-hadoop/HiBench

介绍：

Hadoop新人

环境 linux

该笔记针对英语弱鸡&自己在使用过程用遇到的问题的记录。

步骤：

首先创建一个文件夹HiBench：mkdir HiBench

cd HiBench

git clone https://github.com/intel-hadoop/HiBench

先介绍一下我的测试集群的环境：

master
resourcemanager
datanode1
datanode2
datanode3

概述

HiBench是用来在速度方面评估不同的大数据框架的，它包括一系列的Hadoop，Spark，streaming工作负载，包括sort，wordcount，TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。同样也为park Streaming, Flink, Storm and Gearpump提供工作负载。

Getting Started

Build HiBench
Run HadoopBench
Run SparkBench
Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

Build HiBench

运行mvn -Dscala=2.11 clean package 是Build All，即建立HiBench的所有模块。

可能遇到的问题：

1.bash: mvn : command not found

原因：你的系统上没有安装maven

解决方法：去官网下载

2.执行过程中出现失败

原因：可能是网络的问题吧，我也不是很清楚

解决方法：重复执行该命令，最后出现build succeed 即可。

Run HadoopBench

1.确保：

Python 2.x(>=2.6) is required.
Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP
Build HiBench according to build HiBench.
Start HDFS, Yarn in the cluster.

2.创建并修改配置文件hadoop.conf

在HiBench的conf下：mkdir hadoop.conf

在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

然后修改配置文件： vim hadoop.conf

按照下图的规范：

注意：

1.hibench.hadoop.home是你本机上hadoop的安装路径

2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。导致后来运行脚本一直不成功。

首先localhost是你的机器的IP，也可以在命令行输入hostname，用hostname来代替localhost即可。

后面的端口号也不是8020，要根据本机的端口，在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml，可以观察到

hdfs://master:9000代替hdfs://localhost:8020，

username写的是你把数据存在了usr下的那个文件里

我配置完的情况是：

接下来就是在HiBench下运行脚本

bin/workloads/micro/wordcount/prepare/prepare.sh
 bin/workloads/micro/wordcount/hadoop/run.sh
如果前面都没有问题的话，是能正常执行的。
执行完成以后，你可以在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息


数据规模也是可以设置的：修改conf/hibench.conf里面的hibench.scale.profile项。


未完待续。。。

posted @ 2017-05-24 17:18 PJQOOO 阅读(6548) 评论(1) 编辑收藏举报

刷新页面返回顶部

PJQOOO

关注微信公众号：gakki0103 获取更多技能（算法，C语言，Java，Python，大数据）

HiBench学习笔记

Getting Started

公告