centos7.2 64位 hadoop2.7.3 安装 hawq 2.10 随笔啊随笔而已。
在谷歌趋势上看,spark全球火,而hawq除了中国其他地方也比较火,尤其德国芬兰hawq火。有意思的是hawq的开发团队的老大是华人,是北京某著名大学的08届博士!团队也有好多华人
hive的感觉很呆板,spark天马行空但吃内存并发底。pgsql-->greenplum-->hawq,一路走来,hawq算是够了。hawq的缺点是开发麻烦,CPP语言么!spark用scala语言,代码量少,开发快。
hawq是计算存储分离,使用p2p udp快速传输数据。而spark计算和存储一体,RDD尽量放入内存,占用内存大。
还有,hawq应该不用mapred模型,所以这个实验你不配置mapred也没关系了。
我单节点装了hawq,从源代码编译。到20170411:22:17:13:452250 hawq_init:t430:gpadmin-[INFO]:-Init HAWQ cluster successfully
做个笔记。有同行用到了,最好不过。
主要安装资料
Apache Hadoop 2.7.3 – Hadoop: Setting up a Single Node Cluster.
https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
但节点安装hadoop,而非local模式.。hadoop应该放在/home下,而非用户目录下,更不应该是/root下。否则很麻烦
因为hawq资源管理配置文件里可以用no,而非yarn,所以yarn可以不装。no表示用hawq自己的资源管理框架。
https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=61320026 这是apache社区的资料。英文。
https://mp.weixin.qq.com/s?__biz=MzAwMzcyMzEyOQ==&mid=2656640507&idx=1&sn=5c4c48d1aa082374ac59adf0ea51a648&pass_ticket=SMMJxi09RPEUiBXeCWsaJyIycUFKmjbaEQNm1IjphVzh5mvtC3ODZpWPI2skvTOp
这是hawq中文的weixin号的文章。
编译完后,hawq被装在/usr/local/hawq下。要求gpadmin对hawq/etc有完全权限。我设owner是gpadmin,然后目录和文件权限777了。
然后hawq init cluster是以gpadmin身份执行的。
下面把配置文件贴下。
[root@t430 hadoop]# cat bash_profile export base1=/home export JAVA_HOME="$base1/hadoop/jdk1.8.0_111" export SCALA_HOME="$base1/hadoop/scala-2.11.8" export HADOOP_HOME="$base1/hadoop/hadoop-2.7.3" export SPARK_HOME="$base1/hadoop/spark-2.1.0-bin-hadoop2.7" export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$PATH" export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop [root@t430 hadoop]#
配置文件中spark和scala是另一个里面的,您不需要这两项。
注意,hawq中hdfs 端口认8020,而hadoop2.7.3默认是9000。这个我们改hadoop这边的。
涉及到环境变量自动设置的问题。每次登陆都执行一次source bash_profile不应该吧。可以cat bash_profile>>~/.bashrc ,就是把环境变量内容追加到.bashrc中,用户登陆时会自动初始化。建议把/usr/local/hawq/gree*.sh也追加到bashrc中。
编译hawq要下载很多东西。
make
-j8
这个命令有用,虽然名字起的很随意。要用的。用的时候下载了一堆java的东西,又慢,所以配置了maven的aliyun镜像,简直快。[root@t430 ~]# cat ~/.m2/settings.xml <?xml version="1.0" encoding="UTF-8"?> <settings xmlns="http://maven.apache.org/SETTINGS/1.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd"> <mirrors> <mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror> <mirror> <id>ibiblio</id> <mirrorOf>central</mirrorOf> <name>Human Readable Name for this Mirror.</name> <url>http://mirrors.ibiblio.org/pub/mirrors/maven2/</url> </mirror> </mirrors> </settings> [root@t430 ~]#
然后注意启动start-dfs.sh之前,要用su hdfs 切换用户到hdfs。否则对应本地目录的所有人是root,可能会有问题。启动完后,切换到gpadmin 启动hawq init cluster。
最近spark冷了,产品没以前那么火,郁闷。我随笔,不懂问我。