Impala官网翻译09-安装Impala

安装Impala

Impala是一个针对Apache Hadoop的开源分析数据库,可以快速返回查询响应。

按照以下步骤,通过从源码构建在集群上设置Impala。

  • 下载最新版本。请参阅Impala下载页面以获取最新版本的链接。
  • 检查 README.md 文件,以获得指向构建说明的指针。
  • 请检查MD5和SHA1以及GPG签名,后者使用发布管理器的代码签名密钥。
  • 有兴趣在Impala上工作的开发者可以克隆Impala源码库。
  • git clone https://gitbox.apache.org/repos/asf/impala.git

Impala的安装包括哪些内容

Impala是由一组组件组成的,可以安装在整个集群的多个节点上。为了保证性能,关键的安装步骤是在集群中的所有DataNodes上安装impalad daemon(它完成大部分的查询处理工作)。

Impala主要由这些可执行文件组成,在你从源码构建之后,这些可执行文件应该是可用的。

  • impalad - Impala守护进程。计划并执行针对HDFS、HBase和Amazon S3数据的查询。在集群中拥有DataNode的每个节点上运行一个impalad进程。
  • statestored - 跟踪集群中所有impalad实例的位置和状态的服务名称。在集群中的一个节点上运行一个该守护进程的实例。大多数生产部署在namen节点上运行这个守护进程。
  • catalogd - 元数据协调服务,它将Impala DDL和DML语句中的更改广播到所有受影响的Impala节点,这样新表、新加载的数据等对通过任何Impala节点提交的查询立即可见。(在Impala 1.2之前,你必须在每个节点上运行REFRESH或INVALIDATE METADATA语句来同步更改的元数据。现在,只有当你通过Hive等外部机制或通过将数据上传到Amazon S3文件系统来执行DDL或DML时,才需要这些语句)。) 在集群中的一个节点上运行该守护进程的一个实例,最好与stattored守护进程在同一主机上。
  • impala-shell - 用于向Impala守护进程发出查询的命令行接口。你可以将其安装在网络中任何地方的一台或多台主机上,不一定是DataNodes,甚至是和Impala在同一个集群中。它可以远程连接到Impala daemon的任何实例。

在开始使用Impala之前,请确保您拥有所有必要的先决条件。详情请参见Impala要求。

posted @ 2021-02-05 11:58  田野与天  阅读(195)  评论(0编辑  收藏  举报