摘要: 1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data 阅读全文
posted @ 2020-05-09 18:11 技术即艺术 阅读(12199) 评论(0) 推荐(1) 编辑
摘要: 1.写在前面 在 对流式数据处理过程中,往往是spark streaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中,如果是普通的rdd则API为 ,如果是PairRDD则API为 。当然高版本的spa 阅读全文
posted @ 2020-05-09 17:22 技术即艺术 阅读(3372) 评论(2) 推荐(0) 编辑