大叔经验分享(106)Impala读取parquet时间字段时区偏移问题
parquet文件中的时间字段,在hive和spark-sql中读取正常,在impala中读取会偏移8个小时(少),经测试结果如下:
一 不修改impala配置
1 由spark或hive写入parquet
- spark和hive读取正常
- impala读取偏移8小时(少),需要手工偏移 from_unixtime(unix_timestamp(time) + 28800)
二 修改impala配置
use_local_tz_for_unix_timestamp_conversions=true
convert_legacy_hive_parquet_utc_timestamps=true
1 由spark或hive写入parquet
- spark和hive读取正常
- impala读取正常
2 由impala写入parquet
- spark和hive读取偏移8小时(多)
- impala读取正常
参考:https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_timezone.html
---------------------------------------------------------------- 结束啦,我是大魔王先生的分割线 :) ----------------------------------------------------------------
- 由于大魔王先生能力有限,文中可能存在错误,欢迎指正、补充!
- 感谢您的阅读,如果文章对您有用,那么请为大魔王先生轻轻点个赞,ありがとう