摘要: 本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤; 2、如何使用spark-streaming接入TCP数据并进行wordcount; 内容如下: 1、使用maven,先解决pom依赖 1、接收TCP数据并过滤,打印含有error的行 执行方法 2、接收Kafka数据并 阅读全文
posted @ 2017-07-04 12:48 扎心了老铁 阅读(1080) 评论(0) 推荐(0) 编辑
摘要: hive sql求差集的方法 1、什么是差集 set1 - set2,即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法,基本是使用左外链接。 直接上代码 3、一般来说我们要先去重,使得两个表都变成集合,元素唯一。 先对table2(右表)去重然后再计算差集。 阅读全文
posted @ 2017-07-04 12:20 扎心了老铁 阅读(4667) 评论(0) 推荐(0) 编辑