摘要: 一、概述 spark对离线数据进行ETL处理时,经常会碰到各式各样的分隔符,如果碰到的分隔符恰好有需要转义,就会引发一些错误,并且比较难以排查。比如我在项目中就碰到了客户的~|~作为分隔符的数据。因为需要在界面上输入,可把我坑惨了,花费了比较多的时间,在此记录一下。 二、问题解决 如果需要在在jso 阅读全文
posted @ 2020-08-07 19:13 虎啸千峰 阅读(2247) 评论(0) 推荐(0) 编辑
摘要: 一、概述 出现该问题的原因是因为 如果用命令行创建的hive表,会根据hive的hive.default.fileformat,这个配置来规定hive文件的格式,其中fileformat一般有4中,分别是TextFile、SequenceFile、RCFile、ORC。默认情况下,不指定的话,是Te 阅读全文
posted @ 2020-08-07 18:43 虎啸千峰 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 一 、概述 在spark访问CDH平台时,如果同时访问两个CDH平台,如果登录的CDH平台中没有kerberos信息,而插入信息的CDH平台开启了Kerberos信息,就会报错误 Server asks us to fall back to SIMPLE auth, but this client 阅读全文
posted @ 2020-08-07 18:37 虎啸千峰 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 一、概述 使用IDEA调试spark程序时,spark通过thriftserver访问hive的元数据信息,如果不设置spark的warehouse目录会报nameservice1异常;这是因为本地目录访问不到nameservice信息,需要将nameservices配置到spark中。 二、问题解 阅读全文
posted @ 2020-08-07 18:28 虎啸千峰 阅读(4231) 评论(0) 推荐(0) 编辑