摘要: spark aggregate源代码 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文
posted @ 2020-01-07 16:28 sw_kong 阅读(255) 评论(0) 推荐(0) 编辑
摘要: 背景 我们以网络爬虫为例。网络间的链接错综复杂,爬虫程序在网络间“爬行”很可能会形成“环”。为了避免形成“环”,程序需要知道已经访问过网站的URL。当程序又遇到一个网站,根据它的URL,怎么判断是否已经访问过呢? 第一个想法就是将已有URL放置在HashSet中,然后利用HashSet的特性进行判断 阅读全文
posted @ 2020-01-07 14:36 sw_kong 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kaf 阅读全文
posted @ 2020-01-07 11:32 sw_kong 阅读(569) 评论(0) 推荐(0) 编辑