摘要:
spark aggregate源代码 /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a 阅读全文
摘要:
背景 我们以网络爬虫为例。网络间的链接错综复杂,爬虫程序在网络间“爬行”很可能会形成“环”。为了避免形成“环”,程序需要知道已经访问过网站的URL。当程序又遇到一个网站,根据它的URL,怎么判断是否已经访问过呢? 第一个想法就是将已有URL放置在HashSet中,然后利用HashSet的特性进行判断 阅读全文
摘要:
系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kaf 阅读全文