随笔分类 -  DataX

讲述阿里开源组件DataX使用过程中碰到的问题和解决方法
摘要:一、Oracle数据库是GBK编码导入到UTF-8的mysql数据库出现乱码 Oracle数据库有一套自己的编码方法,当客户端和数据库编码不一致时会自动转换编码方式;客户端获取数据时Oracle会自动将GBK转为UTF-8,因此,需要在Mysql的url上设置编码为UTF-8保持和mysql的一直即 阅读全文
posted @ 2020-07-31 09:24 虎啸千峰 阅读(1208) 评论(0) 推荐(0) 编辑
摘要:一、python版本问题报错显示 java.lang.Exception: File "/home/hundsun/workspace/dap/tools/bdata-datago/DataX/bin/datax.py", line 114 print readerRef ^SyntaxError: 阅读全文
posted @ 2020-07-15 14:26 虎啸千峰 阅读(1886) 评论(0) 推荐(0) 编辑
摘要:一、概述 将数据以parquet模式写入到hive的分区表中时,底层源码有个错误,在进行分割字段判断时,没有引用已传入字符,多了一个“=”;该错误在hive的client中也会碰到 错误原因是底层分割符引用错误, 二、解决方法 从https://github.com/apache/parquet-m 阅读全文
posted @ 2020-07-13 20:25 虎啸千峰 阅读(309) 评论(0) 推荐(0) 编辑
摘要:一、概述 1、 hive中的Timestamp Hive在0.8的版本后开始支持Timestamp的格式。Hive在储存时间戳的时候会先把时间转成UTC的时间,然后再把转换后的时间存储到Parquet文件中。在读取Parquet文件的时候Hive会把时间从UTC时间再转化回成本地的时间。这样的话,如 阅读全文
posted @ 2020-07-08 20:08 虎啸千峰 阅读(2650) 评论(0) 推荐(0) 编辑
摘要:一、概述 使用DataX进行数据同步时,如果没有开启kerberos,需要配置hdfsUser,不然会报权限错误;错误信息如下 二、错误分析 查看DataX的HdfsWriter插件,发现它底层的实现逻辑是:如果没有开启kerberos,那么会使用hdfsUser用户将数据写入到HDFS中;如果hd 阅读全文
posted @ 2020-05-21 11:04 虎啸千峰 阅读(3181) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示