2020 年 5月 9 日随笔档案 - 技术即艺术

2020年5月9日

摘要： 1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data 阅读全文

posted @ 2020-05-09 18:11 技术即艺术阅读(12366) 评论(0) 推荐(1) 编辑

spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)

摘要： 1.写在前面在对流式数据处理过程中，往往是spark streaming消费kafka的数据写入hdfs中，再进行hive映射形成数仓，当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中，如果是普通的rdd则API为，如果是PairRDD则API为。当然高版本的spa 阅读全文

posted @ 2020-05-09 17:22 技术即艺术阅读(3443) 评论(2) 推荐(0) 编辑

技术即艺术

公告