摘要: 自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1、不使用强类型,继承UserDefinedAggregateFunction package com.home.spark import org. 阅读全文
posted @ 2019-12-24 17:30 我是属车的 阅读(1363) 评论(0) 推荐(0) 编辑
摘要: 1、sparksql是Spark用来处理结构化数据的一个模块,它提供了两个抽象DataFrame和DataSet并且作为分布式SQL查询引擎的作用。 Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效 阅读全文
posted @ 2019-12-24 17:25 我是属车的 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 1、读取mysql数据。从mysql读取的时候需要传入数据边界,数据类型是long,一般建议主键列,如果是时间列,需要转换成时间戳。 参考demo:https://github.com/asker124143222/spark-demo package com.home.spark import j 阅读全文
posted @ 2019-12-24 16:48 我是属车的 阅读(2212) 评论(0) 推荐(0) 编辑
摘要: 1、map是对数据1对1的遍历,传输效率相对比较差,相比起mapPartitions不会出现内存溢出 2、mapPartitions 对一个rdd里所有分区遍历 效率优于map算子,减少了发送到执行器执行的交互次数,mapPartitions是批量将分区数据一次发送 但是执行器内存不够的则可能会出现 阅读全文
posted @ 2019-12-24 16:35 我是属车的 阅读(2494) 评论(0) 推荐(0) 编辑