SparkSql读取hive-NumberFormatException:For input string:“0000001_0000“

SparkSql读取hive-NumberFormatException:For input string:“0000001_0000”

HDP3集群环境下,spark2.3 在使用Spark Sql操作hive表时出现异常:
java.lang.NumberFormatException:For input string:“0000001_0000”

出现这个问题的原因其实是 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据数据,准确来说是内表的数据。因为hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark3.0及以前版本还不支持hive的ACID功能,因此无法读取ACID表的数据。
spark issues地址:SPARK-15348 Hive ACID

因此需要调整三个hive的参数(指定hive创建表时不为acid表)

属性 参数
hive.strict.managed.tables false
hive.create.as.insert.only false
metastore.create.as.acid false

注意:
以上三个参数设置在spark sql运行环境内是不能解决问题的,因为出现该问题是hive建表的机制导致的,并且修改后需要重启hive组件,需要将操作的hive重新创建后才能正常访问,否则虽然修改了参数,但是已存在的表还是按照acid表模式创建的。

posted @ 2020-08-07 09:57  sssuperMario  阅读(782)  评论(0编辑  收藏  举报