2019年10月22日

parquet使用笔记

摘要: 1、错误 Exception in thread "main" org.apache.parquet.column.statistics.StatisticsClassException: Statistics comparator mismatched: SIGNED_INT32_COMPARAT 阅读全文

posted @ 2019-10-22 15:02 mylittlecabin 阅读(612) 评论(0) 推荐(0) 编辑

2019年10月18日

spark错误集

摘要: 1、ExitCodeException exitCode=13 spark-submit 命令提交的代码中master设置的是"local[6]" ,应该设置为”yarn" ; 2、外部声明对象,而后在转换操作中搜集数据,最后再处理,这种思路的问题 最后你会发现啥也没搜集到,用于收集数据的对象是空的 阅读全文

posted @ 2019-10-18 19:23 mylittlecabin 阅读(441) 评论(0) 推荐(0) 编辑

linux实用命令

摘要: 1、查看目录下各文件夹大小 du -sh ./* 2、查看cpu信息 cat /proc/cpuinfo|more 3、查看内存信息 free -g 阅读全文

posted @ 2019-10-18 15:01 mylittlecabin 阅读(131) 评论(0) 推荐(0) 编辑

2019年10月17日

spark streaming kafka消费多个topic时不执行的问题

摘要: 通过断点跟进,发现每个topic的数据都是可以去到的,但最后会阻塞在DataFrame的落地操作执行上; 如: 仔细观察日志能够发现类型:INFO scheduler.JobScheduler: Added jobs for time ××××× 的日志; 原因:Receiver运行线程不够用 解决 阅读全文

posted @ 2019-10-17 17:45 mylittlecabin 阅读(1748) 评论(0) 推荐(0) 编辑

spark创建DataFrame时将字符串转换为日期

摘要: 两个思路 1、在构建Row的时候将字段值转换为java.sql.Date或者java.sql.Timestamp类型 2、构建完DataFrame后,使用withColumn方法更新转换字段类型,此方法会转换数据类型同步修改DataFrame的schema 参考:https://stackoverf 阅读全文

posted @ 2019-10-17 15:30 mylittlecabin 阅读(2817) 评论(0) 推荐(0) 编辑

2019年10月13日

vi编辑实用命令

摘要: 1.怎样快速将光标从当前位置跳到文件最后一行,第一行? 先shift + : 进入 command模式,输入$ 回车 即可跳到最后一行; 同上进入命令行模式后输入0或者1,回车即可跳到第一行; 2.怎样显示行号?怎样将光标跳到指定行? 显示当前行号:command模式输入nu回车; 显示所有行行号: 阅读全文

posted @ 2019-10-13 13:07 mylittlecabin 阅读(179) 评论(0) 推荐(0) 编辑

2019年10月12日

hadoop实用命令

摘要: 1、怎样一次上传多个文件到hdfs ? 错误示例,这样只会上传最后一个文件 正确做法如下,需指定上传位置即可 也支持通配符方式上传 阅读全文

posted @ 2019-10-12 11:08 mylittlecabin 阅读(108) 评论(0) 推荐(0) 编辑

2019年10月10日

查找redis安装目录

摘要: 如果命令 which 和whereis 都找不到安装目录,可使用以下办法 ps -ef|grep redis 得到了进程号 xxxx 然后 ls -l /proc/xxxx/cwd 亲测 centos7下有效 参考:https://blog.csdn.net/liu59412/article/det 阅读全文

posted @ 2019-10-10 18:32 mylittlecabin 阅读(4815) 评论(0) 推荐(0) 编辑

2019年9月24日

spark streaming 读取kafka数据保存到parquet文件,redis存储offset

摘要: spark streaming 读取kafka topic上json格式数据,存储为parquet文件;使用redis存储offset;因为是将数据存储下来,没能使用事务,本文不能实现exactly once语义;基于幂等的角度,可以考虑数据设置唯一标志,进行merge去重,来实现exactly o 阅读全文

posted @ 2019-09-24 18:31 mylittlecabin 阅读(1517) 评论(0) 推荐(0) 编辑

2019年9月21日

spark-shell读取parquet文件

摘要: 1、进入spark-shell窗口 2、 3、 hdfs://cdp是defaultFS,也可以不写,如下: 4、 参考:https://www.jianshu.com/p/57b20d9d7b4a?utm_campaign=maleskine&utm_content=note&utm_medium 阅读全文

posted @ 2019-09-21 14:03 mylittlecabin 阅读(2737) 评论(0) 推荐(0) 编辑

导航