SparkSql读取hive-NumberFormatException:For input string:“0000001_0000“
SparkSql读取hive-NumberFormatException:For input string:“0000001_0000”
HDP3集群环境下,spark2.3 在使用Spark Sql操作hive表时出现异常:
java.lang.NumberFormatException:For input string:“0000001_0000”
出现这个问题的原因其实是 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据数据,准确来说是内表的数据。因为hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark3.0及以前版本还不支持hive的ACID功能,因此无法读取ACID表的数据。
spark issues地址:SPARK-15348 Hive ACID
因此需要调整三个hive的参数(指定hive创建表时不为acid表)
属性 | 参数 |
---|---|
hive.strict.managed.tables | false |
hive.create.as.insert.only | false |
metastore.create.as.acid | false |
注意:
以上三个参数设置在spark sql运行环境内是不能解决问题的,因为出现该问题是hive建表的机制导致的,并且修改后需要重启hive组件,需要将操作的hive重新创建后才能正常访问,否则虽然修改了参数,但是已存在的表还是按照acid表模式创建的。