Ubuntu 14.04 编译安装 husky
简介
Husky是一个大数据分布式开发框架,用C++开发,因为粗粒度(coarse-grained)平台(如Spark,Hadoop,Flink)MR耗时太大,然后细粒度(fine-grained)平台(GraphX等)编程难度较大,同时细粒度在数据平台之间转移会很耗时。Husky就是在粗粒度和细粒度之间做一个权衡,在PageRank上,他的性能是Spark的30+倍。
Husky主页:http://www.husky-project.com/
升级gcc到5.3
参见博客 http://www.cnblogs.com/loadofleaf/p/5667989.html
安装必要的基础库
1 apt-get update -y 2 apt-get install software-properties-common -y 3 apt-get install build-essential libgoogle-perftools-dev libboost-dev git -y
编译安装cmake 3.x
1 wget https://cmake.org/files/v3.6/cmake-3.6.0.tar.gz 2 tar xf cmake-3.6.0.tar.gz 3 cd cmake-3.6.0/ 4 ./bootstrap 5 make -j4 6 sudo make install
cmake 版本查看
编译安装boost1.58
查看博客 http://www.cnblogs.com/loadofleaf/p/5668109.html
编译安装zeromq4.1.5(Husky一定要zeromq4以上,3版本无法运行)
1 sh autogen.sh 2 ./configure 3 #cp /usr/bin/libtool . 4 make 5 sudo make install
6 sudo ldconfig
git cppzmp(Husky底层通信机制是采用zeromq的)
1 mkdir tmp 2 cd tmp 3 git clone https://github.com/zeromq/cppzmq 4 cd cppzmq 5 sudo cp zmq.hpp /usr/local/include 6 cd ../..
安装pssh(运行husky命令所需)
1 wget http://parallel-ssh.googlecode.com/files/pssh-2.3.1.tar.gz 2 tar zxvf pssh-2.3.1.tar.gz 3 cd pssh-2.3.1/ 4 sudo python setup.py install
编译安装husky
1 unzip husky-0.2.zip 2 cd husky/ 3 mkdir release 4 cd release 5 cmake .. 6 make -j4 Master 7 make -j4 PageRank 8 make -j4 SVM-DC 9 make -j4 Daemon
编译安装libhdfs
1 echo "deb https://dl.bintray.com/wangzw/deb trusty contrib" | sudo tee /etc/apt/sources.list.d/bintray-wangzw-deb.list 2 sudo apt-get install -y apt-transport-https 3 sudo apt-get update 4 sudo apt-get install libhdfs3 libhdfs3-dev
参考:https://github.com/Pivotal-Data-Attic/pivotalrd-libhdfs3/releases
运行
单机版:
./Master path/to/your/conf
./PageRank path/to/your/conf
多机版
./Master path/to/your/conf
./exe.sh pageRank path/to/your/conf
conf文件自动生成:(事先建好conf文件夹)
python scripts/gen_config.py
参数配置(在conf文件中)如(两台机器,最后两行为参数输入)
hadoop@master:~/share_directory/husky/husky$ cat conf/two-node.conf master_host:master master_port:14271 comm_port:14685 hdfs_namenode:master hdfs_namenode_port:9000 socket_file:two-node-socket.txt # list your own parameters here: input:/husky/1000_data/husky_relationship.adj num_iters:30
如果是要读取hdfs文件,要配置libhdfs,参见 http://www.cnblogs.com/loadofleaf/p/5694717.html(如果没有配置hdfs,默认读本地文件)
测试:
debug模式:
mkdir debug && cd debug && cmake .. -DCMAKE_BUILD_TYPE=Debug
数据文件(每一行为节点,该节点的邻居节点数,邻居点编号(多个))
conf文件
conf文件对应的socket文件(自动生成conf脚本里,会自动生成有conf文件和socket文件)
启动Master(每次启动应用,都要先启动Master)
exec.sh文件
节点列表(exec.sh文件里的变量)
多机运行PageRankWorkflow(注:我的这个目录是NFS共享的,意思是每个slave也能直接用,相对路径也一样)