Impala官网翻译09-安装Impala
安装Impala
Impala是一个针对Apache Hadoop的开源分析数据库,可以快速返回查询响应。
按照以下步骤,通过从源码构建在集群上设置Impala。
- 下载最新版本。请参阅Impala下载页面以获取最新版本的链接。
- 检查 README.md 文件,以获得指向构建说明的指针。
- 请检查MD5和SHA1以及GPG签名,后者使用发布管理器的代码签名密钥。
- 有兴趣在Impala上工作的开发者可以克隆Impala源码库。
- git clone https://gitbox.apache.org/repos/asf/impala.git
Impala的安装包括哪些内容
Impala是由一组组件组成的,可以安装在整个集群的多个节点上。为了保证性能,关键的安装步骤是在集群中的所有DataNodes上安装impalad daemon(它完成大部分的查询处理工作)。
Impala主要由这些可执行文件组成,在你从源码构建之后,这些可执行文件应该是可用的。
- impalad - Impala守护进程。计划并执行针对HDFS、HBase和Amazon S3数据的查询。在集群中拥有DataNode的每个节点上运行一个impalad进程。
- statestored - 跟踪集群中所有impalad实例的位置和状态的服务名称。在集群中的一个节点上运行一个该守护进程的实例。大多数生产部署在namen节点上运行这个守护进程。
- catalogd - 元数据协调服务,它将Impala DDL和DML语句中的更改广播到所有受影响的Impala节点,这样新表、新加载的数据等对通过任何Impala节点提交的查询立即可见。(在Impala 1.2之前,你必须在每个节点上运行REFRESH或INVALIDATE METADATA语句来同步更改的元数据。现在,只有当你通过Hive等外部机制或通过将数据上传到Amazon S3文件系统来执行DDL或DML时,才需要这些语句)。) 在集群中的一个节点上运行该守护进程的一个实例,最好与stattored守护进程在同一主机上。
- impala-shell - 用于向Impala守护进程发出查询的命令行接口。你可以将其安装在网络中任何地方的一台或多台主机上,不一定是DataNodes,甚至是和Impala在同一个集群中。它可以远程连接到Impala daemon的任何实例。
在开始使用Impala之前,请确保您拥有所有必要的先决条件。详情请参见Impala要求。