随笔分类 - DataX
讲述阿里开源组件DataX使用过程中碰到的问题和解决方法
摘要:一、Oracle数据库是GBK编码导入到UTF-8的mysql数据库出现乱码 Oracle数据库有一套自己的编码方法,当客户端和数据库编码不一致时会自动转换编码方式;客户端获取数据时Oracle会自动将GBK转为UTF-8,因此,需要在Mysql的url上设置编码为UTF-8保持和mysql的一直即
阅读全文
摘要:一、python版本问题报错显示 java.lang.Exception: File "/home/hundsun/workspace/dap/tools/bdata-datago/DataX/bin/datax.py", line 114 print readerRef ^SyntaxError:
阅读全文
摘要:一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m
阅读全文
摘要:一、概述 1、 hive中的Timestamp Hive在0.8的版本后开始支持Timestamp的格式。Hive在储存时间戳的时候会先把时间转成UTC的时间,然后再把转换后的时间存储到Parquet文件中。在读取Parquet文件的时候Hive会把时间从UTC时间再转化回成本地的时间。这样的话,如
阅读全文
摘要:一、概述 使用DataX进行数据同步时,如果没有开启kerberos,需要配置hdfsUser,不然会报权限错误;错误信息如下 二、错误分析 查看DataX的HdfsWriter插件,发现它底层的实现逻辑是:如果没有开启kerberos,那么会使用hdfsUser用户将数据写入到HDFS中;如果hd
阅读全文