摘要:
本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤; 2、如何使用spark-streaming接入TCP数据并进行wordcount; 内容如下: 1、使用maven,先解决pom依赖 1、接收TCP数据并过滤,打印含有error的行 执行方法 2、接收Kafka数据并 阅读全文
摘要:
hive sql求差集的方法 1、什么是差集 set1 - set2,即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法,基本是使用左外链接。 直接上代码 3、一般来说我们要先去重,使得两个表都变成集合,元素唯一。 先对table2(右表)去重然后再计算差集。 阅读全文