cloudera impala编译安装配置启动

无论是采用GDB调试impala或者尝试修改impala源码，前提都是需要本地环境编译impala，这篇文章详细的分享一下impala编译方法以及编译过程遇到的棘手的问题：

前言：

impala官方的git上其实是有impala编译的步骤的，但是在后来的git版本迭代中，被藏在了一个诡异的地方，https://github.com/cloudera/Impala/tree/v1.2.2，虽i然官方给出了步骤，但该博文并不是官方的一个简单翻译，其中涵盖了很多我加入的细节提醒和遇到的bug以及错误的解决方式，建议大家注意红色字体部分的内容。

impala目前已经是1.3.1版本，but，我前段时间编译的时候git hub上最新的release依然是1.2.2，所以为了怕版本不兼容问题以及不稳定出现的各种诡异bug，这篇博文也是基于1.2.2的源码进行编译的：

Building Cloudera Impala on CentOS 6.2

安装前准备

安装需要的组件

sudo yum install boost-test boost-program-options libevent-devel automake libtool flex bison gcc-c++ openssl-devel \

make cmake doxygen.x86_64 glib-devel boost-devel python-devel bzip2-devel svn libevent-devel cyrus-sasl-devel \

wget git unzip openldap-devel db4-devel

编译boost 1.46.1

Note: Impala requires Boost 1.4.2 or later.

由于boost版本太低导致的错误，

error: looser throw specifier for ‘boost::rv<T>::~rv() [with T = impala::TNetworkAddress]’

CentOS 6.2系统默认yum源中的boost和boost-devel版本是1.41，但是impala编译需要1.4.2以上的版本，因此需要做的是自己重新编译boost，我用的是boost 1.46.1版本。

#删除已安装的boost和boost-devel
yum remove boost
yum remove boost-devel
#下载boost
#可以去(http://www.boost.org/users/history/)下载boost,选择指定版本
#下载后解压缩
tar xvzf boost_1_46_0.tar.gz
mv boost_1_46_0 /usr/local/
cd /usr/include
./bootstrap.sh

#编译boost：

第一种方法：

Boost在编译的时候应该使用命令，否则会出现找不到mt库的问题

./bjam --layout=tagged --mt install

mt库主要是boost多线程库，默认编译并不会编译出这些多线程的库文件，所以需要指定参数--layout=tagged。

第二种方法：

Boost绝对是个大坑，我换了台机器，采用上述命令，依然缺少libboost的相关包，应该是找不到libboost_datetime*的lib包，无奈，我采用完全编译的方式，重新编译boost：

./bjam --build-type=complete --layout=tagged --mt install

注意: Ubuntu 12.04 (and later) requires the libevent1-dev package to work with Thrift v0.9

Install LLVM

按照流程做即可，注意要在多台机器上编译安装Impala的话，只用在一台机器上执行下面绿色的部分，再把llvm分发到多台机器上执行后面红色部分的指令就可以了，没必要每个机器都通过svn下载一遍源代码，很费时。

wget http://llvm.org/releases/3.3/llvm-3.3.src.tar.gz

tar xvzf llvm-3.3.src.tar.gz

cd llvm-3.3.src/tools

svn co http://llvm.org/svn/llvm-project/cfe/tags/RELEASE_33/final/ clang

cd ../projects

svn co http://llvm.org/svn/llvm-project/compiler-rt/tags/RELEASE_33/final/ compiler-rt

cd ..

./configure --with-pic

make -j4 REQUIRES_RTTI=1

sudo make install

提醒：一定不要忘了编译完的安装，即使是4个线程同时编，依然需要一段时间才能编完，这之后看到编译顺利完成，很容易忘记执行安装命令，转而做下面的步骤

LLVM请务必使用3.3版本，严格按照这个顺序装，否则会有各种莫名其妙的错误。

Install the JDK

Make sure that the Oracle Java Development Kit 6 is installed (not OpenJDK), and that JAVA_HOME is set in your environment.

Install Maven

按照步骤，设置一下环境变量即可，

Maven是为了后面build impala源代码 fe部分用的。

wget http://www.fightrice.com/mirrors/apache/maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz

tar xvf apache-maven-3.0.4.tar.gz && sudo mv apache-maven-3.0.4 /usr/local

官网坑之一：该站点根本没有这个资源，没有maven3.0.4的资源，故wget 是失败的

正确的路径，我选择了3.0.5版本，命令如下：

http://www.interior-dsgn.com/apache/maven/maven-3/3.0.5/binaries/apache-maven-3.0.5-bin.tar.gz

Add the following three lines to your .bashrc:

export M2_HOME=/usr/local/apache-maven-3.0.4

export M2=$M2_HOME/bin

export PATH=$M2:$PATH

And make sure you pick up the changes either by logging in to a fresh shell or running:

source ~/.bashrc

Confirm by running:

mvn -version

and you should see at least:

Apache Maven 3.0.4...

编译 Impala

Clone the Impala repository

克隆impala git 源

（此处可以直接下载源代码，解压到指定目录即可）

git clone https://github.com/cloudera/impala.git

运行配置impala环境变量的脚本

cd impala

. bin/impala-config.sh

Confirm your environment looks correct:

编译前检查你的环境是否正确：

下载需要的第三方库：

cd thirdparty

./download_thirdparty.sh

注意这里其中一个包cyrus-sasl-2.1.23可能下载失败，可以自行搜索(CSDN里面就有)下载下来然后解压缩到thirdparty 文件夹，最好是在执行完download_thirdparty.sh之后做这一步，因为download_thirdparty.sh会把所有目录下下载下来的tar.gz给删除掉。

友情提醒：如果你是从别的已经安装好的机器，copy这两个压缩包或者解压文件夹到你的机器，要注意删除之前编译的缓存CMakeCache文件，不然会影响新的安装过程

Build Impala

cd ${IMPALA_HOME}

./build_public.sh -build_thirdparty

该脚本主要包括编译三部分的命令，第一部分是编译安装第三方库，第二部分是编译c++部分（be端），第三部分是用maven编译java部分（fe端）。

第一次build_thirdparty 彩色部分出现后如果失败，后面就不用加-build_thirdparty了，节省时间

结尾语（启动impala服务）

编译成功后，会有一个二进制的impalad在该目录下：

${IMPALA_HOME}/be/build/debug/service.

启动impalad服务：

${IMPALA_HOME}/bin/start-impalad.sh -use_statestore=false

Note that the start-impalad.sh script sets some environment variables that are necessary for Impala to run successfully.

The Impala Shell

The Impala shell is a convenient command-line interface to Cloudera Impala. To run from a source repository, do the following:

${IMPALA_HOME}/bin/impala-shell.sh

启动impala_shell需要用到的python包:

#第一次执行impalad_shell可能会报错，这里需要安装python的两个包:thrift和prettytable，使用easy_install即可
easy_install prettytable
easy_install thrift

Python 的 easy_install，很方便的工具命令！

配置和启动

在配置、启动、使用Impala的时候可能遇到很奇葩的问题；

问题1：Hive和Hadoop使用的版本

CDH对版本的依赖要求比较高，为了保证Impala正常运行，强烈建议使用Impala里面thirdparty目录中自带的Hadoop(native lib已经编译好的)和Hive版本。

Hadoop的配置文件在$HADOOP_HOME/etc/hadoop中，要注意的是需要启用native lib

#修改hadoop的core-site.xml，除了这个选项之外，其他配置和问题2中的core-site.xml一致

<name>hadoop.native.lib</name>

<description>Should native hadoop libraries, if present, be used.</description>

</property>

问题2：Impala的配置文件位置

Impala默认使用的配置文件路径是在bin/set-classpath.sh中配置的，建议把CLASSPATH部分改成

CLASSPATH=\

$IMPALA_HOME/conf:\

$IMPALA_HOME/fe/target/classes:\

$IMPALA_HOME/fe/target/dependency:\

$IMPALA_HOME/fe/target/test-classes:\

${HIVE_HOME}/lib/datanucleus-core-2.0.3.jar:\

${HIVE_HOME}/lib/datanucleus-enhancer-2.0.3.jar:\

${HIVE_HOME}/lib/datanucleus-rdbms-2.0.3.jar:\

${HIVE_HOME}/lib/datanucleus-connectionpool-2.0.3.jar:

即要求Impala使用其目录下的Conf文件夹作为配置文件，然后创建一下Conf目录，把3样东西拷贝进来：core-site.xml、hdfs-site.xml、hive-site.xml。

core-site.xml的配置，下面几个选项是必须要配置的，

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.defaultFS</name>

</property>

<name>dfs.client.read.shortcircuit</name>

</property>

<name>dfs.client.use.legacy.blockreader.local</name>

<value>false</value>

</property>

<name>dfs.client.read.shortcircuit.skip.checksum</name>

<value>false</value>

</property>

</configuration>

hdfs-site.xml的配置

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.block.local-path-access.user</name>

</property>

<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>

</property>

<name>dfs.datanode.data.dir</name>

<value>${yourdatadir}</value>

</property>

<name>dfs.client.use.legacy.blockreader.local</name>

<value>false</value>

</property>

<name>dfs.datanode.data.dir.perm</name>

</property>

<name>dfs.client.file-block-storage-locations.timeout</name>

</property>

<name>dfs.domain.socket.path</name>

<value>/home/extend/cdhhadoop/dn.8075</value>

</property>

</configuration>

最后是hive-site.xml，这个比较简单，指定使用DBMS为元数据存储即可(impala必须和hive共享元数据，因为impala无法create table)；Hive-site.xml使用mysql作为metastore的说明在很多地方都可以查到，配置如下：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://10.28.0.190:3306/impala?createDatabaseIfNotExist=true</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

<description>username to use against metastore database</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<description>password to use against metastore database</description>

</property>

</configuration>

记得把mysql-connector的jar包给拷贝到hive的lib里面去，同样也要拷贝给impala ( 拷贝至$IMPALA_HOME/fe/target/dependency)

启动Impala：

#启动单机impala service

${IMPALA_HOME}/bin/start-impalad.sh -use_statestore=false

#启动impala shell

${IMPALA_HOME}/bin/impala-shell.sh

然后impala-shell就可以连接到localhost进行查询了；注意，这里只是单机查询，可以用来验证你的Impala是否正常work 了；

如何启动一个Impala集群：

Impala实际上由两部分组成，一个是StateStore，用来协调各个机器计算，相当于Master，然后就是Impalad，相当于Slave，启动方法如下：

#启动statestore

#方法1，直接利用impala/bin下面的这个python脚本

#这个脚本会启动一个StateStore，同时启动-s个数量的Impala Service在本机

$IMPALA_HOME/bin/start-impala-cluster.py -s 1 –log_dir /home/extend/impala/impalaLogs

#方法2，手动启动StateStore

$IMPALA_HOME/be/build/debug/statestore/statestored -state_store_port=24000

#启动impala service

#在每个编译安装了impala的节点上执行命令

#参数-state_store_host指定启动了stateStore的机器名

#-nn即namenode，指定hadoop的namenode

#-nn_port是namenode的HDFS入口端口号

$IMPALA_HOME/bin/start-impalad.sh -state_store_host=m11 -nn=m11 -nn_port=9000

正常启动之后，访问http://${stateStore_Server}:25010/ 可以看到StateStore的状态，其中的subscribers页面可以看到已经连接上的impala service node；

启动impala-shell

$IMPALA_HOME/bin/impala-shell.sh

#启动之后可以随便连接一个impala service

connect localhost

#连接上之后就可以执行show tables之类的操作了

#需要注意的是，如果hive创建表或更新了表结构，impala的节点是不知道的

#在impala-shell中键入invalidate metadata 来更新元数据信息

#或者重启所有impala service

下期预告：impala-hbase-scan的源码级分析。

posted @ 2014-07-11 17:35 ChrisTimer 阅读(1991) 评论(0) 编辑收藏举报

刷新页面返回顶部

Chris Timer

-- The night is Cool

cloudera impala编译安装配置启动

前言：

安装前准备

编译boost 1.46.1

Install LLVM

Install the JDK

Install Maven

编译 Impala

结尾语（启动impala服务）

配置和启动

公告

Chris Timer

-- The night is Cool

cloudera impala编译 安装 配置 启动

前言：

安装前准备

编译boost 1.46.1

Install LLVM

Install the JDK

Install Maven

编译 Impala

结尾语（启动impala服务）

配置和启动

公告

cloudera impala编译安装配置启动