1. 版本兼容

Hive on Spark仅使用特定版本的Spark进行测试，因此只能确保给定版本的Hive与特定版本的Spark一起使用。其他版本的Spark可能与给定版本的Hive一起使用，但这不能保证。下面是Hive版本列表及其相应的兼容Spark版本。

2. 安装Spark

注意，必须拥有不包含Hive jar 的Spark版本。Spark的发行版本为了兼顾Spark SQL都会包含有Hive相关的jar,所以我们需要通过源码重新编译,去重相关的jar.

在Spark 2.0.0之前：

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.4,parquet-provided"

自Spark 2.0.0起：

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided"

自Spark 2.3.0起：

./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided,orc-provided"

在hive-site.xml文件中添加:

<property>
        <name>hive.execution.engine</name>
        <value>spark</value>
  </property>

image.png

posted on 2020-10-10 17:29 大码王阅读(610) 评论(0) 编辑收藏举报

刷新页面返回顶部